說起大數(shù)據(jù),很多人模棱兩可,對于大數(shù)據(jù)的核心技術不清楚,其實,從大數(shù)據(jù)的生命周期來看,大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲、大數(shù)據(jù)分析4部分共同組成了大數(shù)據(jù)生命周期里最核心的技術,簡單地說,就是如何拿數(shù)據(jù),算數(shù)據(jù),賣數(shù)據(jù)。
1、大數(shù)據(jù)采集
數(shù)據(jù)庫采集:流行的有Sqoop和ETL,傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle 也依然充當著許多企業(yè)的數(shù)據(jù)存儲方式。當然了,目前對于開源的Kettle和Talend本身,也集成了大數(shù)據(jù)集成內容,可實現(xiàn)hdfs,hbase和主流Nosq數(shù)據(jù)庫之間的數(shù)據(jù)同步和集成。
網(wǎng)絡數(shù)據(jù)采集:一種借助網(wǎng)絡爬蟲或網(wǎng)站公開API,從網(wǎng)頁獲取非結構化或半結構化數(shù)據(jù),并將其統(tǒng)一結構化為本地數(shù)據(jù)的數(shù)據(jù)采集方式。
文件采集:包括實時文件采集和處理技術flume、基于ELK的日志采集和增量采集等等。
2、大數(shù)據(jù)預處理
數(shù)據(jù)清理:指利用ETL等清洗工具,對有遺漏數(shù)據(jù)(缺少感興趣的屬性)、噪音數(shù)據(jù)(數(shù)據(jù)中存在著錯誤、或偏離期望值的數(shù)據(jù))、不一致數(shù)據(jù)進行處理。
數(shù)據(jù)集成:是指將不同數(shù)據(jù)源中的數(shù)據(jù),合并存放到統(tǒng)一數(shù)據(jù)庫的,存儲方法,著重解決三個問題:模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測與處理。
數(shù)據(jù)轉換:是指對所抽取出來的數(shù)據(jù)中存在的不一致,進行處理的過程。它同時包含了~數(shù)據(jù)清洗的工作,即根據(jù)業(yè)務規(guī)則對異常數(shù)據(jù)進行清洗,以保證后續(xù)分析結果準確性
數(shù)據(jù)規(guī)約:是指在最大限度保持數(shù)據(jù)原貌的基礎上,最大限度精簡數(shù)據(jù)量,以得到較小數(shù)據(jù)集的操作,包括:數(shù)據(jù)方聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約、概念分層等。
3、大數(shù)據(jù)存儲
(1)基于MPP架構的新型數(shù)據(jù)庫集群
(2)基于Hadoop的技術擴展和封裝
(3)大數(shù)據(jù)一體機
4、大數(shù)據(jù)分析挖掘
從可視化分析、數(shù)據(jù)挖掘算法、預測性分析、語義引擎、數(shù)據(jù)質量管理等方面,對雜亂無章的數(shù)據(jù),進行萃取、提煉和分析的過程。
關注中培偉業(yè),了解更多相關信息。