您現(xiàn)在的位置：首頁(yè) > IT資訊 > 人工智能 > 人工如智能何解決不平衡數(shù)據(jù)集的問(wèn)題

人工如智能何解決不平衡數(shù)據(jù)集的問(wèn)題

2021-05-31 13:19:30　|　來(lái)源：中培企業(yè)IT培訓(xùn)網(wǎng)

平衡訓(xùn)練數(shù)據(jù)是數(shù)據(jù)預(yù)處理的重要組成部分。數(shù)據(jù)不平衡是指數(shù)據(jù)集中的類分布不均，這可能會(huì)導(dǎo)致模型訓(xùn)練的潛在風(fēng)險(xiǎn)。有幾種方法可以平衡訓(xùn)練數(shù)據(jù)和克服不平衡數(shù)據(jù)，包括重采樣和權(quán)重平衡。想象一下，如果有一個(gè)模型可以識(shí)別圖片中是狗還是貓。在測(cè)試過(guò)程中，模型正確識(shí)別了圖片中的所有狗，但沒(méi)有識(shí)別出貓。在查看訓(xùn)練數(shù)據(jù)集時(shí)，意識(shí)到有10張狗的圖片和100張貓的圖片。這是數(shù)據(jù)不平衡的一個(gè)例子，其中每個(gè)對(duì)象類的數(shù)據(jù)集沒(méi)有可比數(shù)量的實(shí)例。

你需要知道的事實(shí)是，不平衡的數(shù)據(jù)無(wú)處不在，無(wú)法避免數(shù)據(jù)集不平衡。考慮一個(gè)調(diào)查電動(dòng)車車主對(duì)電動(dòng)車維修費(fèi)意見(jiàn)的例子。因?yàn)榇蟛糠珠_(kāi)電動(dòng)車的人年收入都很高，所以80%的結(jié)果是“收費(fèi)還算合理”。

換句話說(shuō)，數(shù)據(jù)集是有偏見(jiàn)的。一個(gè)訓(xùn)練來(lái)預(yù)測(cè)調(diào)查反應(yīng)的模型通常會(huì)預(yù)測(cè)一個(gè)人，無(wú)論收入、駕駛傾向或汽車偏好如何，都會(huì)認(rèn)為費(fèi)用低廉。

在檢查犯罪數(shù)據(jù)時(shí)也會(huì)出現(xiàn)同樣的問(wèn)題。在使用人工智能 (AI) 預(yù)測(cè)犯罪行為時(shí)，不平衡的犯罪數(shù)據(jù)集會(huì)使數(shù)據(jù)集中存在的種族和性別偏見(jiàn)永久化。在面對(duì)不平衡數(shù)據(jù)時(shí)，使用方法改進(jìn)訓(xùn)練過(guò)程至關(guān)重要，平衡訓(xùn)練數(shù)據(jù)有兩種主要方法：關(guān)注數(shù)據(jù)集或權(quán)重。

在我們不想改變模型的情況下，我們可以簡(jiǎn)單地進(jìn)行數(shù)據(jù)預(yù)處理。換句話說(shuō)，我們應(yīng)該查看我們的數(shù)據(jù)集，了解數(shù)據(jù)分布，并決定如何重新采樣我們的數(shù)據(jù)，這是平衡訓(xùn)練數(shù)據(jù)的一步。這里，有兩種可能的方法：

過(guò)/欠采樣：在少數(shù)類中增加樣本或在多數(shù)類中減少樣本。

聚類技術(shù)：這類似于重采樣，但不是將樣本添加到不同的類中，我們首先找到每個(gè)類中的子類或子簇，然后復(fù)制子類中的樣本以確保大小相等。

權(quán)重平衡是平衡訓(xùn)練數(shù)據(jù)和處理不平衡數(shù)據(jù)的另一種好方法，這是通過(guò)乘以 logits 將類權(quán)重添加到損失函數(shù)來(lái)完成的。我們首先定義類權(quán)重以賦予少數(shù)類額外的權(quán)重，然后將類權(quán)重乘以損失函數(shù)。在 Tensorflow 中，您可以執(zhí)行以下操作：

loss = tf.nn.softmax_cross_entropy_with_logits(labels, pred)

weighted_loss = loss * class_weights

為什么我們要將權(quán)重乘以原始損失函數(shù)?這使得損失成為加權(quán)平均值，其中每個(gè)樣本的權(quán)重由其對(duì)應(yīng)類的 class_weight 指定。

在 Modzy 平衡訓(xùn)練數(shù)據(jù)

在 Modzy，我們的數(shù)據(jù)科學(xué)家將數(shù)據(jù)預(yù)處理視為一項(xiàng) 關(guān)鍵任務(wù)。在訓(xùn)練我們的模型之前，我們確保我們的數(shù)據(jù)集不會(huì)產(chǎn)生潛在風(fēng)險(xiǎn)并且我們的模型是穩(wěn)健的。

這對(duì)您意味著什么

在 AI 激增的世界中，重要的是我們要特別關(guān)注訓(xùn)練數(shù)據(jù)，以降低有偏差輸出的風(fēng)險(xiǎn)。

上述就是關(guān)于如何解決不平衡數(shù)據(jù)集的問(wèn)題的全部?jī)?nèi)容，想了解更多關(guān)于人工智能的信息，請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。