2.大數據的特征
國際數據公司( IDC)從大數據的四大特征來對大數據進行定義,即海量的數據規模( Volume),快速的數據流轉和動態的數據體系(Velocity)、多樣的數據類型(Variety)以及巨大的數據價值( Value)。業界將這四大特征歸納為4個“V”:
1)海量的數據規模( Volume):近些年全球的數據量急劇增加,社交網絡、電子商務等將人們帶人了一個以PB為單位的新時代。
2)快速的數據流轉和動態的數據體系(Velocity):這是大數據區分于傳統數據挖掘的最顯著特征。信息通常具有時效性,所以必須從各種類型的數據中快速獲取信息,才能最大化地挖掘利用信息價值。
3)多樣的數據類型(Variety):相比較以往便于存儲的以文本為主的結構化數據,非結構化數據越來越多,包括日志、音頻、視頻、點擊流量、圖片、地理位置等,此外,還有一些半結構化數據,如電子郵件、辦公處理文檔等。
4)巨大的數據價值(Value):從大量的數據中挖掘發現具有高價值的信息,例如天氣預測等。這一特征也體現了大數據獲取數據價值的本質。
此外,在傳統4V特征的基礎上提出了大數據體系架構的5V特征。相比較4、,特征,其增加了真實性(Veracity)特征,真實性特性包括了可信性、真偽性、來源和信譽、有效性和可審計性等子特性。