隨著計算機等技術的發(fā)展和普及,大數(shù)據(jù)已不是過去那種簡簡單單的數(shù)據(jù)了。中培偉業(yè)《大數(shù)據(jù)分析及可視化技術應用實戰(zhàn)》專家謝老師表示,大數(shù)據(jù)并非只是數(shù)量大,而是有很多特征,如價值密度低、結構復雜等,這也給數(shù)據(jù)分析帶來了難度。數(shù)據(jù)本身無價值,但如果對其進行分析,挖掘出有價值的信息,則能將枯燥乏味的數(shù)據(jù)轉化為實實在在的價值。由于這種分析方法上存在很多難度,因此掌握相關的數(shù)據(jù)分析技巧就極為重要。
大數(shù)據(jù)技術指從海量無序紊亂的數(shù)據(jù)中,在最短的時間內獲得有價值信息的技術,即核心包括數(shù)據(jù)收集、數(shù)據(jù)挖掘、數(shù)據(jù)分析等,其中數(shù)據(jù)分析是將有價值信息呈現(xiàn)人們眼前的第一步,基于此,大數(shù)據(jù)時代帶來的挑戰(zhàn)不止是體驗在數(shù)據(jù)越來越復雜、多樣上,還體現(xiàn)在如何從這些數(shù)據(jù)中找到數(shù)據(jù)間的相關關系和隱藏的規(guī)律,也體現(xiàn)掌握數(shù)據(jù)分析技巧的重要性,如此才能在大數(shù)據(jù)時代搶占有利地位。
我們從大數(shù)據(jù)分析的五個基本面來講述下,數(shù)據(jù)分析時應注意的理論和方法?
(1)數(shù)據(jù)可視化
簡單來說,數(shù)據(jù)可視化就是研究如何將復雜的數(shù)據(jù),通過一種直觀易懂的方式呈現(xiàn)出來,讓人們可以快速接受。我們經(jīng)常被優(yōu)秀的可視化作品所震撼,尤其是可視化制作并不簡單,它涉及制圖學、統(tǒng)計學、心理學、計算機視覺、數(shù)據(jù)采集等,是門綜合學科。早期的數(shù)據(jù)可視化作品以圖形為主,即便如此,要將大量數(shù)據(jù)在同一個表格中畫出來,難度也是很大的。
在早期,可視化作品主要是手工制作,很耗費時間,后來隨著計算機興起,自動繪圖程序出現(xiàn),手工繪圖就被取代了,但兩者的本質并未改變,都是將數(shù)據(jù)信息以直觀易懂的方式呈現(xiàn)出來,便于讀者接受和理解,就如同看圖說話那般簡單。
(2)數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘是數(shù)據(jù)分析中重要的步驟,其理論是數(shù)據(jù)挖掘算法,算法具有靈活性,會根據(jù)數(shù)據(jù)類型、格式、結構、數(shù)量等不同而算法不同,分析不同的數(shù)據(jù)源所需的算法也不一樣。唯有通過相應的算法才能深入數(shù)據(jù)內部,挖掘出其存在的價值,為可視化提供信息支持;另外也是因為唯有合理的算法才能更快地處理大數(shù)據(jù),時間短,見效快。眾所周知,數(shù)據(jù)增長速度逐漸加快,如果算法不能提供快速處理,需費時很長,那么就會被淹沒在數(shù)據(jù)中,數(shù)據(jù)價值也會因此大打折扣,甚至毫無價值。
(3)預測能力
預測是大數(shù)據(jù)的核心能力,也是運用范圍最廣的一種能力,在企業(yè)、交通、體育等領域得到了廣泛的利用,并獲得豐厚的回報。在海量數(shù)據(jù)中找出數(shù)據(jù)間的相關關系后,則可以基于此建立模型,模型經(jīng)過試驗后,便能不斷地加入新的數(shù)據(jù),模型會顯示結果,因而起到預測未來的作用。
但預測和人的直覺有時是相矛盾的,要根據(jù)實際情況進行合理的分析,做出科學的判斷。
(4)語義引擎
網(wǎng)絡數(shù)據(jù)挖掘一直是數(shù)據(jù)分析的重要組成部分,如谷歌曾通過搜索流感相關詞語,成功預測了流感所發(fā)生地區(qū),對醫(yī)療做出了卓越的貢獻。事實上,大數(shù)據(jù)時代的數(shù)據(jù)多是源于互聯(lián)網(wǎng),包括社交媒體、網(wǎng)絡日志等,人們可以利用關鍵詞、標簽關鍵詞、語義、相關詞語來分析用戶眼下的狀況,分析用戶的需求,從而為用戶提供更好的產(chǎn)品和服務,提升用戶體驗,這也是精準營銷的要點所在。
(5)數(shù)據(jù)質量和數(shù)據(jù)管理
大數(shù)據(jù)一直為人所詬病的技術其數(shù)據(jù)質量問題,數(shù)據(jù)量雖然增加了,但其中臟數(shù)據(jù)、異常值、數(shù)據(jù)噪音也多了起來,給數(shù)據(jù)分析帶來難度,也影響數(shù)據(jù)分析結果的準確性,畢竟數(shù)據(jù)分析結果是用來指導商業(yè)生產(chǎn)、學術研究等,結果的準確性和可靠性就非常重要。因此數(shù)據(jù)質量和數(shù)據(jù)管理就顯得很有必要,也是數(shù)據(jù)分析中必須要面對的問題。
數(shù)據(jù)管理指運用計算機技術對數(shù)據(jù)進行收集、存儲、處理已經(jīng)應用的過程是,將無效數(shù)據(jù)等清理出去,發(fā)揮數(shù)據(jù)的作用,且隨著時代發(fā)展,其管理水平也逐漸提升,由過去的人工管理、文件系統(tǒng),到如今的數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)管理越來越科學化。
這就是大數(shù)據(jù)分析的五個基本面,是數(shù)據(jù)分析的基礎,如果要進行深度分析,則需一些更專業(yè)、更有效率的分析方法,當然,隨著時代進步,數(shù)據(jù)分析方法也在更新?lián)Q代,人們理應跟上時代發(fā)展,掌握最先進的數(shù)據(jù)分析方法,從而更好的從海量數(shù)據(jù)中淘出“黃金”來。