您現(xiàn)在的位置：首頁 > IT資訊 > 大數(shù)據(jù) > 全面詳解大數(shù)據(jù)核心技術

全面詳解大數(shù)據(jù)核心技術

2023-04-28 18:00:11　|　來源：企業(yè)IT培訓

說起大數(shù)據(jù)，很多人模棱兩可，對于大數(shù)據(jù)的核心技術不清楚，其實，從大數(shù)據(jù)的生命周期來看，大數(shù)據(jù)采集、大數(shù)據(jù)預處理、大數(shù)據(jù)存儲、大數(shù)據(jù)分析4部分共同組成了大數(shù)據(jù)生命周期里最核心的技術，簡單地說，就是如何拿數(shù)據(jù)，算數(shù)據(jù)，賣數(shù)據(jù)。

1、大數(shù)據(jù)采集

數(shù)據(jù)庫采集：流行的有Sqoop和ETL，傳統(tǒng)的關系型數(shù)據(jù)庫MySQL和Oracle 也依然充當著許多企業(yè)的數(shù)據(jù)存儲方式。當然了，目前對于開源的Kettle和Talend本身，也集成了大數(shù)據(jù)集成內容，可實現(xiàn)hdfs，hbase和主流Nosq數(shù)據(jù)庫之間的數(shù)據(jù)同步和集成。

網(wǎng)絡數(shù)據(jù)采集：一種借助網(wǎng)絡爬蟲或網(wǎng)站公開API，從網(wǎng)頁獲取非結構化或半結構化數(shù)據(jù)，并將其統(tǒng)一結構化為本地數(shù)據(jù)的數(shù)據(jù)采集方式。

文件采集：包括實時文件采集和處理技術flume、基于ELK的日志采集和增量采集等等。

2、大數(shù)據(jù)預處理

數(shù)據(jù)清理：指利用ETL等清洗工具，對有遺漏數(shù)據(jù)(缺少感興趣的屬性)、噪音數(shù)據(jù)(數(shù)據(jù)中存在著錯誤、或偏離期望值的數(shù)據(jù))、不一致數(shù)據(jù)進行處理。

數(shù)據(jù)集成：是指將不同數(shù)據(jù)源中的數(shù)據(jù)，合并存放到統(tǒng)一數(shù)據(jù)庫的，存儲方法，著重解決三個問題：模式匹配、數(shù)據(jù)冗余、數(shù)據(jù)值沖突檢測與處理。

數(shù)據(jù)轉換：是指對所抽取出來的數(shù)據(jù)中存在的不一致，進行處理的過程。它同時包含了~數(shù)據(jù)清洗的工作，即根據(jù)業(yè)務規(guī)則對異常數(shù)據(jù)進行清洗，以保證后續(xù)分析結果準確性

數(shù)據(jù)規(guī)約：是指在最大限度保持數(shù)據(jù)原貌的基礎上，最大限度精簡數(shù)據(jù)量，以得到較小數(shù)據(jù)集的操作，包括：數(shù)據(jù)方聚集、維規(guī)約、數(shù)據(jù)壓縮、數(shù)值規(guī)約、概念分層等。

3、大數(shù)據(jù)存儲

(1)基于MPP架構的新型數(shù)據(jù)庫集群

(2)基于Hadoop的技術擴展和封裝

(3)大數(shù)據(jù)一體機

4、大數(shù)據(jù)分析挖掘