400-626-7377
數(shù)據(jù)挖掘的目的是更好地幫助業(yè)務(wù),所以要首先從商業(yè)的角度理解項目需求,在此基礎(chǔ)上再對數(shù)據(jù)挖掘的目標(biāo)進(jìn)行定義
模型的作用是找到有價值的數(shù)據(jù),獲得的數(shù)據(jù)需要進(jìn)行可視化,轉(zhuǎn)化成用戶可以使用的方式,同時要持續(xù)監(jiān)控和維護
嘗試收集部分?jǐn)?shù)據(jù),然后對數(shù)據(jù)進(jìn)行探索,包括數(shù)據(jù)描述、數(shù)據(jù)質(zhì)量驗證等,這有助于對收集到的數(shù)據(jù)有初步的認(rèn)知
對模型進(jìn)行評價,并檢查構(gòu)建模型的每個步驟,確認(rèn)模型是否實現(xiàn)了預(yù)定的商業(yè)目標(biāo)
開始收集數(shù)據(jù),并對數(shù)據(jù)進(jìn)行清洗、數(shù)據(jù)集成等操作,完成數(shù)據(jù)挖掘前的準(zhǔn)備工作
選擇和應(yīng)用各種數(shù)據(jù)挖掘模型,并進(jìn)行優(yōu)化,以便得到更好的分類結(jié)果
資深Linux運維行業(yè)大牛傾力打造
為您的學(xué)習(xí)保駕護航
理論結(jié)合實戰(zhàn)
培養(yǎng)您獨立思考和解決問題的能力
課程緊跟行業(yè)趨勢
讓您學(xué)有所用,用有所成
19年的行業(yè)積累
完善的高效培訓(xùn)體系
面授、電腦端、APP端融合
反復(fù)學(xué)反復(fù)練
講解Python背景、國內(nèi)發(fā)展?fàn)顩r、基礎(chǔ)語法、數(shù)據(jù)結(jié)構(gòu)及繪圖操作等內(nèi)容。特別針對向量計算這塊,著重介紹Python在這方面的優(yōu)勢及用法。
講解統(tǒng)計分析基礎(chǔ),包括統(tǒng)計學(xué)基本概念,假設(shè)檢驗,置信區(qū)間等基礎(chǔ),并結(jié)合數(shù)據(jù)案例說明其使用場景和運用方法。介紹數(shù)據(jù)分析流程和常見分析思路,并結(jié)合案例進(jìn)行講解。
從數(shù)據(jù)接入、數(shù)據(jù)統(tǒng)計、數(shù)據(jù)轉(zhuǎn)換等幾個方面進(jìn)行講解。數(shù)據(jù)接入包含接入MySQL、Oracle、Hadoop等常見數(shù)據(jù)庫操作;數(shù)據(jù)統(tǒng)計包含Pandas包的具體用法和講解;數(shù)據(jù)轉(zhuǎn)換包含對數(shù)據(jù)集的關(guān)聯(lián)、合并、重塑等操作。此外,針對海量數(shù)據(jù)的情況下,介紹在Spark平臺上的數(shù)據(jù)處理技術(shù),并結(jié)合真實環(huán)境進(jìn)行操作講解。
講解數(shù)據(jù)挖掘基本概念,細(xì)致講解業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估、模型部署各環(huán)節(jié)的工作內(nèi)容及相關(guān)技術(shù);結(jié)合業(yè)界經(jīng)典場景,講解數(shù)據(jù)挖掘的實施流程和方法體系。
細(xì)致講解抽樣、分區(qū)、樣本平衡、特征選擇、訓(xùn)練模型、評估模型等數(shù)據(jù)挖掘核心技術(shù)原理,并結(jié)合案例講解其具體實現(xiàn)和用法。尤其針對樣本平衡,重點講解人工合成、代價敏感等算法;針對特征選擇,重點講解特征選擇的核心思路,并結(jié)合Python進(jìn)行案例演示。
降維是大數(shù)據(jù)分析非常重要的算法,它可以在降低極少信息量的情況下,極大地縮小數(shù)據(jù)規(guī)模。主要講解主成分、LDA以及t-SNE原理,并結(jié)合案例進(jìn)行Python實現(xiàn)。特別地,針對海量數(shù)據(jù)情況下的應(yīng)用場景,講解實現(xiàn)思路和Python案例。
決策樹是非常經(jīng)典的算法,一般常見于小數(shù)據(jù)的挖掘。由于決策樹具有極強的可解釋性,針對海量數(shù)據(jù)仍然是非常重要的實用價值。主要講解ID3、C4.5、C5.0以及CART決策樹算法的實現(xiàn)原理,并結(jié)合案例進(jìn)行Python實現(xiàn)。
實戰(zhàn)部分:基于好萊塢百萬級的影評數(shù)據(jù),對數(shù)據(jù)進(jìn)行建模、清洗、透視表操作。然后根據(jù)用戶畫像分析不同的用戶喜好通過機器學(xué)習(xí)算法對不同性別、年齡階段的用戶進(jìn)行定制化的電影推薦,最后把推薦的電影進(jìn)行可視化的展示操作
大數(shù)據(jù)分析技術(shù)可以幫助我們?nèi)グl(fā)現(xiàn)、解決一些業(yè)務(wù)問題,然而如何去判斷我們的改進(jìn)是否生效,是否在業(yè)務(wù)指標(biāo)上呈現(xiàn)過一定的因果邏輯,則是一個重要問題和分析方向。本節(jié)主要介紹因果推理算法,包括貝葉斯推理、狀態(tài)空間模型以及CausalImpact工具等內(nèi)容,并結(jié)合案例進(jìn)行Python實現(xiàn)。
對于大數(shù)據(jù)的建模任務(wù),我們可以基于深度學(xué)習(xí)來實現(xiàn),不僅能夠針對海量數(shù)據(jù)進(jìn)行建模,其效果也非常不錯。本節(jié)主要講解深度學(xué)習(xí)的發(fā)展歷程,DBN、DNN等經(jīng)典深度學(xué)習(xí)算法,深度學(xué)習(xí)優(yōu)化算法以及一些技巧。同時,介紹Keras、OpenCV庫的使用方法,并結(jié)合案例進(jìn)行Python實現(xiàn)。
實戰(zhàn)部分:基于YOLO面部模型,完成對圖片和視頻的人臉識別,實戰(zhàn)中會講解YOLO的重要類和函數(shù)。主要內(nèi)容包括YOLO庫的安裝和部署、圖像增強、像素操作、圖形分析等各種技術(shù),并且詳細(xì)介紹了如何處理來自文件或攝像機的視頻,以及如何檢測和跟蹤移動對象。
數(shù)據(jù)可視化是大數(shù)據(jù)分析的重要手段,通過合理地使用圖表,不僅可以簡潔地表達(dá)數(shù)據(jù)的含義,高效地發(fā)現(xiàn)問題,還可以為報告的編寫以及數(shù)據(jù)分析web應(yīng)用增色不少。本節(jié)主要講解常用的數(shù)據(jù)分析圖表及其使用場景,介紹數(shù)據(jù)可視化的方法論,避免生搬硬套的使用圖表,針對不同的業(yè)務(wù)場景和需求,合理選擇可視化方法。介紹的工具不限于matplotlib、pycha、pyecharts、ggplot、Bokeh、HoloViews、mpld3、plotly、pygal等常用可視化庫。
數(shù)據(jù)分析報告在大數(shù)據(jù)分析過程中具有重要價值,它體現(xiàn)了大數(shù)據(jù)分析的目的、過程和結(jié)果,以及對發(fā)現(xiàn)問題的解讀、改進(jìn)方案等等,本節(jié)主要講解使用Notebook編寫數(shù)據(jù)分析報告的具體方法,以及編寫數(shù)據(jù)分析報告的方法論,并結(jié)合案例講解其用法。
Seaborn是一款不錯的可視化框架,它和 Pandas一樣是建立在 Matplotlib 之上的。可以基于Seaborn快速開發(fā)一個輕量級的數(shù)據(jù)分析web應(yīng)用。在網(wǎng)頁中嵌入圖表、數(shù)據(jù)以及分析的算法,非常適合打造企業(yè)內(nèi)部的敏捷數(shù)據(jù)分析工具集。本節(jié)主要介紹Pie、Scatter、Radar等等各種可視化解決方案,同時講解一個用Seaborn實現(xiàn)數(shù)據(jù)分析功能(兼圖表)的實際案例,搭建服務(wù)器,在企業(yè)內(nèi)部實現(xiàn)輕量級數(shù)據(jù)分析應(yīng)用。
DeepSeek作為一款全能型AI助手,致力于提升職場工作效率。通過其核心功能,DeepSeek能幫助職場人士自動化處理會議紀(jì)要、合同提取、PPT制作等日常任務(wù),從而節(jié)省時間并提高工作效率。它還能夠通過精準(zhǔn)的數(shù)據(jù)分析為決策提供洞察,并激發(fā)創(chuàng)意生成內(nèi)容,如短視頻腳本和文案,徹底打破傳統(tǒng)內(nèi)容生成的思維模式。
Dify是一款低代碼應(yīng)用開發(fā)平臺,通過與DeepSeek R1的無縫集成,能夠快速構(gòu)建定制化的智能應(yīng)用。利用Dify,用戶可以輕松實現(xiàn)工作流自動化和智能增強,進(jìn)一步提升業(yè)務(wù)效率。DeepSeek R1在客服自動應(yīng)答、智能文檔處理、數(shù)據(jù)分析等多個場景中得到廣泛應(yīng)用,通過優(yōu)化工作流,簡化多步驟任務(wù),提高整體業(yè)務(wù)流程的自動化水平,從而實現(xiàn)職場賦能和創(chuàng)新驅(qū)動。