高效的機器學習模型需要高質(zhì)量的數(shù)據(jù)。訓練您的機器學習模型并不是過程中的單個有限階段。即使將其部署在生產(chǎn)環(huán)境中,也可能需要穩(wěn)定的新培訓數(shù)據(jù)流,以確保模型隨時間的預測準確性。畢竟,訓練數(shù)據(jù)會顯式地調(diào)用數(shù)據(jù)集中代表 外部世界中不斷變化的地面事實的屬性。如果不進行定期重新訓練,隨著實際變量的發(fā)展,模型的準確性自然會隨時間下降。在本文中,我們將討論為什么不管您的初始訓練數(shù)據(jù)過程多么嚴格,繼續(xù)訓練您的機器學習模型都是至關(guān)重要的。我們還將討論再培訓的方法以及每種方法的優(yōu)點。
最后,我們將介紹如何在任何機器學習項目開始時預見對后續(xù)更新的需求。通過從一開始就建立再培訓過程,您將設(shè)計一個可持續(xù)的預測模型。
數(shù)據(jù)漂移和再培訓需求
為什么大多數(shù)機器學習模型都需要更新才能保持準確性?答案在于訓練數(shù)據(jù)的性質(zhì)以及它告知機器學習模型的預測功能的方式。
訓練數(shù)據(jù)是一個靜態(tài)數(shù)據(jù)集,機器學習模型可從該數(shù)據(jù)集中推斷出模式和關(guān)系,并對未來進行預測。
隨著現(xiàn)實條件的變化,訓練數(shù)據(jù)的地面真實性表示可能會不太準確。想象一下用于預測50個大型都會區(qū)租金成本的機器學習模型。從2000年到2019年的培訓數(shù)據(jù)可能會以驚人的準確性預測2020年的租金價格。預測2050年的租金價格可能不太有效,因為房地產(chǎn)市場的基本性質(zhì)可能會在未來幾十年發(fā)生變化。
應用自然語言處理(NLP)訓練聊天機器人可提供數(shù)據(jù)漂移的另一個有用說明。我們使用語言的方式正在不斷發(fā)展,因此必須更新對支持聊天機器人的訓練數(shù)據(jù)的語義分析,以反映當前的語言。想象一下,嘗試使用1980年代的培訓數(shù)據(jù)來訓練聊天機器人與現(xiàn)代消費者進行互動。在40年中,語言可能會發(fā)生巨大變化-迫使需要更新的培訓數(shù)據(jù)。
已經(jīng)以多種方式描述了這種現(xiàn)象,包括數(shù)據(jù)漂移,概念漂移和模型衰減。無論您說什么,它都代表了機器學習的硬道理:在將來的某個時候,您的訓練數(shù)據(jù)將不再為準確預測提供基礎(chǔ)。
不可避免的挑戰(zhàn)的答案是定期使用新數(shù)據(jù)或擴展數(shù)據(jù)重新訓練您的模型。確實,訓練模型是一個持續(xù)的過程,尤其是在質(zhì)量很重要的情況下。
您應該如何應對更新機器學習模型?簡單來說,您有兩個選擇:使用更新的輸入手動重新訓練模型,或構(gòu)建旨在從新數(shù)據(jù)中不斷學習的模型。
手動模型重新訓練方法
實質(zhì)上,手動更新機器學習模型的方法是復制您的初始訓練數(shù)據(jù)過程-但要使用一組更新的數(shù)據(jù)輸入。在這種情況下,您可以決定如何以及何時提供算法新數(shù)據(jù)。
此選項的可行性取決于您定期獲取和準備新訓練數(shù)據(jù)的能力。您可以隨時間監(jiān)視模型的性能,確定何時需要更新。如果模型的準確性明顯下降,則可能需要對更新的數(shù)據(jù)進行重新訓練。
這種方法的優(yōu)點之一是,修補通常可以帶來見識和創(chuàng)新。如果密切監(jiān)視模型并找出缺點,則可能會發(fā)現(xiàn)包含更多數(shù)據(jù)或以更基本的方式修改算法的價值。
模型訓練的持續(xù)學習方法
持續(xù)學習模型通常會從部署了數(shù)據(jù)的生產(chǎn)環(huán)境中合并新的數(shù)據(jù)流。
消費者每天都會使用持續(xù)學習的機器學習模型。考慮音樂流媒體平臺S,該平臺使用協(xié)作過濾功能根據(jù)具有相似愛好的其他用戶的偏好向用戶提供推薦,以創(chuàng)造價值和競爭優(yōu)勢。
當S用戶收聽音樂時,與他們的選擇有關(guān)的數(shù)據(jù)將反饋到公司的預測算法中。由此產(chǎn)生的反饋循環(huán)完善了該應用為其用戶提供的建議,并允許高級個性化設(shè)置,例如機器生成的個性化播放列表。其他領(lǐng)先的消費媒體服務提供商也使用類似的持續(xù)學習系統(tǒng)。
如您所料,構(gòu)建這些系統(tǒng)所需的技術(shù)專長和資源對于許多組織來說根本無法滿足。此外,您需要穩(wěn)定的數(shù)據(jù)流以進行自動集成。在持續(xù)學習模型中,人為干預是可能的,但它代表了真正的瓶頸。例如,S在將其數(shù)百萬用戶生成的數(shù)據(jù)反饋回其算法之前,不需要對其進行清理或格式化。
無論是手動更新還是持續(xù)學習似乎更有效且可行,您都需要從戰(zhàn)略上考慮用于生成新數(shù)據(jù)以進行再培訓的勞動力和技術(shù)。如果您打算在可預見的將來使用模型,則需要適當?shù)馁Y源來保持模型最新。
期待發(fā)展:選擇團隊
創(chuàng)建培訓數(shù)據(jù)需要人員,流程和工具的戰(zhàn)略組合。要瀏覽收集,清理和標記數(shù)據(jù)的歧義,您需要一個有效的技術(shù)人員堆棧,其中包括熟練的技術(shù)人員和先進的技術(shù)。
許多組織無法管理或擴展內(nèi)部團隊來準備培訓數(shù)據(jù),因此他們尋求利用人類智能的替代方法。眾包勞工是一種常見選擇,它使您可以在短時間內(nèi)挖掘數(shù)百名匿名工人。
然而,匿名眾包帶來了隱性成本,包括與工人的溝通不暢,這可能導致工作質(zhì)量低下。而且,如果在開發(fā)初始訓練數(shù)據(jù)集時這些缺點很明顯,那么當您嘗試重新訓練和更新模型時,它們將尤其令人沮喪。
對于一群匿名的眾包工人,幾乎不可能進行監(jiān)督或轉(zhuǎn)移機構(gòu)記憶。每次開發(fā)新的培訓數(shù)據(jù)時,都有發(fā)現(xiàn)新的不一致和性能問題的風險。
C提供了另一個選項:隨時準備轉(zhuǎn)變您的數(shù)據(jù)操作的托管團隊。您可以聘請我們的專業(yè)技術(shù)人員來滿足您的特定數(shù)據(jù)需求,并根據(jù)需要隨時間擴大或縮小規(guī)模。您將獲得具有眾包勞動力的靈活性的真實團隊的服務和溝通,從而在不犧牲效率的情況下降低成本。
如果要長期保持機器學習模型的性能,則需要足夠靈活的員工隊伍來滿足您不斷進行的培訓數(shù)據(jù)需求。看一下我們可擴展的機器學習方法,看看我們?nèi)绾螏椭渌究朔?shù)據(jù)挑戰(zhàn),為創(chuàng)新產(chǎn)品提供動力并破壞其行業(yè)。
C是將人員和技術(shù)結(jié)合在一起以提供用于機器學習和核心業(yè)務數(shù)據(jù)處理的云勞動力解決方案的全球領(lǐng)導者。我們的管理團隊擁有150多個AI項目的經(jīng)驗,幾乎可以使用任何工具來高精度地處理數(shù)據(jù)。作為影響力采購服務提供商,C為發(fā)展中國家的人才創(chuàng)造了經(jīng)濟和領(lǐng)導機會。
以上就是關(guān)于如何使您的機器學習模型保持最新的全部內(nèi)容介紹,想了解更多關(guān)于機器學習的信息,請繼續(xù)關(guān)注中培偉業(yè)。