平衡訓(xùn)練數(shù)據(jù)是數(shù)據(jù)預(yù)處理的重要組成部分。數(shù)據(jù)不平衡是指數(shù)據(jù)集中的類分布不均,這可能會(huì)導(dǎo)致模型訓(xùn)練的潛在風(fēng)險(xiǎn)。有幾種方法可以平衡訓(xùn)練數(shù)據(jù)和克服不平衡數(shù)據(jù),包括重采樣和權(quán)重平衡。想象一下,如果有一個(gè)模型可以識(shí)別圖片中是狗還是貓。在測(cè)試過(guò)程中,模型正確識(shí)別了圖片中的所有狗,但沒(méi)有識(shí)別出貓。在查看訓(xùn)練數(shù)據(jù)集時(shí),意識(shí)到有10張狗的圖片和100張貓的圖片。這是數(shù)據(jù)不平衡的一個(gè)例子,其中每個(gè)對(duì)象類的數(shù)據(jù)集沒(méi)有可比數(shù)量的實(shí)例。
你需要知道的事實(shí)是,不平衡的數(shù)據(jù)無(wú)處不在,無(wú)法避免數(shù)據(jù)集不平衡。考慮一個(gè)調(diào)查電動(dòng)車車主對(duì)電動(dòng)車維修費(fèi)意見(jiàn)的例子。因?yàn)榇蟛糠珠_(kāi)電動(dòng)車的人年收入都很高,所以80%的結(jié)果是“收費(fèi)還算合理”。
換句話說(shuō),數(shù)據(jù)集是有偏見(jiàn)的。一個(gè)訓(xùn)練來(lái)預(yù)測(cè)調(diào)查反應(yīng)的模型通常會(huì)預(yù)測(cè)一個(gè)人,無(wú)論收入、駕駛傾向或汽車偏好如何,都會(huì)認(rèn)為費(fèi)用低廉。
在檢查犯罪數(shù)據(jù)時(shí)也會(huì)出現(xiàn)同樣的問(wèn)題。在使用人工智能 (AI) 預(yù)測(cè)犯罪行為時(shí),不平衡的犯罪數(shù)據(jù)集會(huì)使數(shù)據(jù)集中存在的種族和性別偏見(jiàn)永久化。在面對(duì)不平衡數(shù)據(jù)時(shí),使用方法改進(jìn)訓(xùn)練過(guò)程至關(guān)重要,平衡訓(xùn)練數(shù)據(jù)有兩種主要方法:關(guān)注數(shù)據(jù)集或權(quán)重。
在我們不想改變模型的情況下,我們可以簡(jiǎn)單地進(jìn)行數(shù)據(jù)預(yù)處理。換句話說(shuō),我們應(yīng)該查看我們的數(shù)據(jù)集,了解數(shù)據(jù)分布,并決定如何重新采樣我們的數(shù)據(jù),這是平衡訓(xùn)練數(shù)據(jù)的一步。這里,有兩種可能的方法:
過(guò)/欠采樣:在少數(shù)類中增加樣本或在多數(shù)類中減少樣本。
聚類技術(shù):這類似于重采樣,但不是將樣本添加到不同的類中,我們首先找到每個(gè)類中的子類或子簇,然后復(fù)制子類中的樣本以確保大小相等。
權(quán)重平衡是平衡訓(xùn)練數(shù)據(jù)和處理不平衡數(shù)據(jù)的另一種好方法,這是通過(guò)乘以 logits 將類權(quán)重添加到損失函數(shù)來(lái)完成的。我們首先定義類權(quán)重以賦予少數(shù)類額外的權(quán)重,然后將類權(quán)重乘以損失函數(shù)。在 Tensorflow 中,您可以執(zhí)行以下操作:
loss = tf.nn.softmax_cross_entropy_with_logits(labels, pred)
weighted_loss = loss * class_weights
為什么我們要將權(quán)重乘以原始損失函數(shù)?這使得損失成為加權(quán)平均值,其中每個(gè)樣本的權(quán)重由其對(duì)應(yīng)類的 class_weight 指定。
在 Modzy 平衡訓(xùn)練數(shù)據(jù)
在 Modzy,我們的數(shù)據(jù)科學(xué)家將數(shù)據(jù)預(yù)處理視為一項(xiàng) 關(guān)鍵任務(wù)。在訓(xùn)練我們的模型之前,我們確保我們的數(shù)據(jù)集不會(huì)產(chǎn)生潛在風(fēng)險(xiǎn)并且我們的模型是穩(wěn)健的。
這對(duì)您意味著什么
在 AI 激增的世界中,重要的是我們要特別關(guān)注訓(xùn)練數(shù)據(jù),以降低有偏差輸出的風(fēng)險(xiǎn)。
上述就是關(guān)于如何解決不平衡數(shù)據(jù)集的問(wèn)題的全部?jī)?nèi)容,想了解更多關(guān)于人工智能的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。