在研究機器學(xué)習(xí)問題時,我們經(jīng)常會在不同的步驟受阻。那么如何應(yīng)對機器學(xué)習(xí)中的重大挑戰(zhàn)?為了解決幾乎所有這些步驟,這里列出了我們面臨的所有主要挑戰(zhàn)以及克服這些挑戰(zhàn)可以采取的步驟。為了便于理解,還將這些挑戰(zhàn)歸為不同的子領(lǐng)域,即數(shù)據(jù)準備,模型訓(xùn)練和模型部署,希望通過閱讀本文,可以幫助大家更好的理解機器學(xué)習(xí)的意義。
數(shù)據(jù)采集:
1.當我們開始收集數(shù)據(jù)時,獲取不完整的數(shù)據(jù)通常令人頭疼。即使我們得到數(shù)據(jù),也證明是偏差數(shù)據(jù)。偏差是指在數(shù)據(jù)收集或數(shù)據(jù)分析中與事實不符之處,可能導(dǎo)致錯誤的結(jié)論;
2.然后是維數(shù)的詛咒,它是指分析在低維空間中不會發(fā)生的高維數(shù)據(jù)時發(fā)生的現(xiàn)象;
3.最后,我們有數(shù)據(jù)稀疏性問題。假設(shè)您有一個包含很多空值或不可能值的表。這些值表示數(shù)據(jù)中的稀疏性。
要克服的步驟:
1.花費適當?shù)臅r間來理解問題以及解決問題所需的正確數(shù)據(jù)集;
2.豐富數(shù)據(jù);
3.降維技術(shù)。
離群值:
1.數(shù)據(jù)中的數(shù)值超出范圍或分類值未知;
2.它顯示出對平方損失函數(shù)的巨大影響。
要克服的步驟:
1.像binning這樣的離散化技術(shù)可以幫助減少平方損失函數(shù);
2.強大的方法,例如Huber損失函數(shù)。
缺失數(shù)據(jù):
1.這會影響信息丟失,從而影響模型的準確性;
2.當關(guān)鍵信息被度量,收集或解釋不正確時發(fā)生的信息偏差。
要克服的步驟:
1.基于樹的建模技術(shù)可以幫助解決此類問題;
2.離散化還可以幫助減少損失函數(shù);
3.歸因。
稀疏目標變量:
1.當主要事件發(fā)生率較低時會發(fā)生;
2.目標中零或缺失值占絕大多數(shù)。
要克服的步驟:
1.比例過采樣;
2.混合模型;
3.模型訓(xùn)練。
過度擬合:
1.過度擬合的主要原因是方差高和偏差低,無法正確歸納。
要克服的步驟:
1.正則化-一種用于通過在誤差函數(shù)中添加附加懲罰項來調(diào)整函數(shù)的技術(shù);
2.噪聲注入-這種方法是指在訓(xùn)練過程中人為地向輸入數(shù)據(jù)添加“噪聲”;
3.交叉驗證-一種用于評估統(tǒng)計分析結(jié)果如何概括為獨立數(shù)據(jù)集的技術(shù)。
計算資源開發(fā):
1.大多數(shù)時候,我們執(zhí)行單線程算法實現(xiàn);
2.高度可靠的口譯語言。
要克服的步驟:
1.并行訓(xùn)練許多單線程模型;
2.硬件加速,例如GPU和SSD;
3.低級本機庫;
4.云-Google Colab筆記本。
集成模型:
1.單個模型有時無法提供足夠的準確性;
2.單一模型還會導(dǎo)致過度擬合-高方差和低偏差,無法正確歸納。
要克服的步驟:
1.套袋,提升和堆疊等集成模型可以幫助解決問題;
2.有時將預(yù)測的自定義或手動組合有助于提高準確性。
超級參數(shù)調(diào)整:
1.組合爆炸是問題復(fù)雜性的快速增長,這是由于問題的組合如何受到輸入的影響所致,它是在常規(guī)算法中使用超參數(shù)發(fā)生的。
要克服的步驟:
1.局部搜索優(yōu)化,其中還包括遺傳算法;
2.網(wǎng)格搜索或蘭德搜索技術(shù)有助于從我們提供的參數(shù)中找到最佳的一對超級參數(shù)。
模型解釋:
1.大量參數(shù)和規(guī)則使模型難以解釋。
要克服的步驟:
1.使用正則化技術(shù)進行變量選擇;
2.替代模型;
3.解釋方法,如LIME;
4.偏相關(guān)圖,特征重要性圖可以幫助解釋模型。
模型部署:
1.從開發(fā)環(huán)境到操作計算系統(tǒng),都必須使用經(jīng)過訓(xùn)練的模型邏輯,以協(xié)助組織做出決策。
要克服的步驟:
1.Web服務(wù)評分可以幫助人們獲得結(jié)果;
2.任何組織都更容易理解模型輸出的儀表板。
模型衰減:
1.自模型創(chuàng)建以來,業(yè)務(wù)問題和市場狀況可能會發(fā)生變化;
2.新的觀察結(jié)果不在訓(xùn)練數(shù)據(jù)范圍內(nèi)。
要克服的步驟:
1.定期監(jiān)視模型,尤其是在精度降低時;
2.每當數(shù)據(jù)或系統(tǒng)發(fā)生變化而影響模型時,請定期更新模型。
好了關(guān)于如何應(yīng)對機器學(xué)習(xí)中的重大挑戰(zhàn)的信息,介紹到這里就結(jié)束了,想了解更多關(guān)于機器學(xué)習(xí)的信息,請繼續(xù)關(guān)注中培偉業(yè)。