在當(dāng)今的大數(shù)據(jù)時代,不僅IT(互聯(lián)網(wǎng))行業(yè)的人們需要了解與大數(shù)據(jù)相關(guān)的知識,傳統(tǒng)行業(yè)的從業(yè)人員和普通大學(xué)生還應(yīng)該了解大數(shù)據(jù)的知識,這些知識是由工業(yè)驅(qū)動的下,互聯(lián)網(wǎng)和新的基礎(chǔ)設(shè)施的計劃。未來,大數(shù)據(jù)技術(shù)將得到全面應(yīng)用,大數(shù)據(jù)還將重塑整個產(chǎn)業(yè)結(jié)構(gòu)。那說了這么多大數(shù)據(jù),到底什么是大數(shù)據(jù)呢?通俗的說,大數(shù)據(jù)即為海量數(shù)據(jù)。
什么是大數(shù)據(jù)?
了解大數(shù)據(jù)首先要從大數(shù)據(jù)的概念開始,不同于人工智能概念,大數(shù)據(jù)概念還是相對比較明確的,而且大數(shù)據(jù)的技術(shù)體系也已經(jīng)趨于成熟了。解釋大數(shù)據(jù)概念,可以從數(shù)據(jù)自身的特點入手,然后進(jìn)一步從場景、應(yīng)用和行業(yè)來逐漸展開。
大數(shù)據(jù)自身的特點往往集中在五個方面,分別是數(shù)據(jù)量、數(shù)據(jù)結(jié)構(gòu)多樣性、數(shù)據(jù)價值密度、數(shù)據(jù)增長速度和可信度,對于這五個維度的理解和認(rèn)知,是了解大數(shù)據(jù)概念的關(guān)鍵。當(dāng)然,隨著大數(shù)據(jù)技術(shù)的發(fā)展和在行業(yè)領(lǐng)域的應(yīng)用,關(guān)于數(shù)據(jù)自身的維度也有了一定程度的擴展,這些擴展本身也是對大數(shù)據(jù)概念的一種豐富和完善。
數(shù)據(jù)量大是大數(shù)據(jù)的一個重要特征,但是數(shù)據(jù)量本身是一個匯集的概念,并不是只有很大的數(shù)據(jù)才稱為大數(shù)據(jù),傳統(tǒng)信息系統(tǒng)所產(chǎn)生的“小數(shù)據(jù)”也是大數(shù)據(jù)的一個重要組成部分,這一點一定要有清晰的認(rèn)知。當(dāng)前從大數(shù)據(jù)的數(shù)據(jù)來源來看,主要集中在三個渠道,包括互聯(lián)網(wǎng)、物聯(lián)網(wǎng)和傳統(tǒng)信息系統(tǒng),物聯(lián)網(wǎng)數(shù)據(jù)當(dāng)前占據(jù)的比例比較大,相信在5G時代,物聯(lián)網(wǎng)將依然是大數(shù)據(jù)的主要數(shù)據(jù)來源。
數(shù)據(jù)結(jié)構(gòu)多樣性是大數(shù)據(jù)的另一個重要特點,不同于創(chuàng)新信息系統(tǒng)(ERP)當(dāng)中的數(shù)據(jù),大數(shù)據(jù)的數(shù)據(jù)類型是非常復(fù)雜的,既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),這對于傳統(tǒng)的數(shù)據(jù)處理技術(shù)提出了巨大的挑戰(zhàn),這也是推動大數(shù)據(jù)技術(shù)產(chǎn)生的一個重要原因。在工業(yè)互聯(lián)網(wǎng)時代,大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)多樣性會進(jìn)一步得到體現(xiàn),這對于數(shù)據(jù)價值化過程也提出了新的挑戰(zhàn)。
數(shù)據(jù)價值密度往往是衡量數(shù)據(jù)價值的重要基礎(chǔ),相對于傳統(tǒng)的信息系統(tǒng)來說,大數(shù)據(jù)當(dāng)中的數(shù)據(jù)價值密度是比較低的,這就需要有更快速和便捷的方式,來完成數(shù)據(jù)的價值化提取過程,而這也正是當(dāng)前大數(shù)據(jù)平臺所關(guān)注的核心能力之一。實際上,早期的Hadoop、Spark平臺之所以能夠脫穎而出,一個重要的原因就是其數(shù)據(jù)處理(排序)速度比較快。
數(shù)據(jù)增長速度快是大數(shù)據(jù)的另一個重要表現(xiàn),通常傳統(tǒng)信息系統(tǒng)的數(shù)據(jù)增量是可以預(yù)測的,或者說增長速度是可控的,但是在大數(shù)據(jù)時代,數(shù)據(jù)增長速度已經(jīng)大大突破了傳統(tǒng)數(shù)據(jù)處理所能承載的極限。數(shù)據(jù)增長是一個相對的概念,相對于消費互聯(lián)網(wǎng)來說,產(chǎn)業(yè)互聯(lián)網(wǎng)所帶來的數(shù)據(jù)增量可能會更加客觀,因此產(chǎn)業(yè)互聯(lián)網(wǎng)時代會進(jìn)一步打開大數(shù)據(jù)的價值空間。
最后,大數(shù)據(jù)還有一個特點就是數(shù)據(jù)本身的真實性,大數(shù)據(jù)時代所帶來的一個重要副作用就是數(shù)據(jù)真假難辨,這也是當(dāng)前大數(shù)據(jù)技術(shù)所要重點解決的問題之一。從當(dāng)前大型互聯(lián)網(wǎng)平臺所采用的方法來看,通常是技術(shù)和管理相結(jié)合的方式,比如通過為用戶認(rèn)證就能夠解決一部分?jǐn)?shù)據(jù)的真實性(專業(yè)性)問題。
什么是大數(shù)據(jù)通過上述介紹,相信大家已經(jīng)清楚了吧,想了解更多關(guān)于大數(shù)據(jù)的信息,請繼續(xù)關(guān)注中培偉業(yè)。