第2章 模型評(píng)估與選擇
2.1經(jīng)驗(yàn)誤差與過(guò)擬合
通常我們把分類(lèi)錯(cuò)誤的樣本數(shù)占樣本總數(shù)的比例稱(chēng)為“錯(cuò)誤率”(errorrate),即如果在m個(gè)樣本中有a個(gè)樣本分類(lèi)錯(cuò)誤,則錯(cuò)誤率E=a/m;相應(yīng)的,1- a/m稱(chēng)為“精度”(accuracy),即“精度=1-錯(cuò)誤率”,更一般地,我們把學(xué)習(xí)器的實(shí)際預(yù)測(cè)輸出與樣本的真實(shí)輸出之間的差異稱(chēng)為“誤差”(error),學(xué)習(xí)器在訓(xùn)練集上的誤差稱(chēng)為“訓(xùn)練誤差”(training error)或“經(jīng)驗(yàn)誤差”(empirical error),在新樣本上的誤差稱(chēng)為“泛化誤差”(generalizationerror).顯然,我們希望得到泛化誤差小的學(xué)習(xí)器,然而,我們事先并不知道新樣本是什么樣,實(shí)際能做的是努力使經(jīng)驗(yàn)誤差最小化.在很多情況下,我們可以學(xué)得一個(gè)經(jīng)驗(yàn)誤差很小、在訓(xùn)練集上表現(xiàn)很好的學(xué)習(xí)器,例如甚至對(duì)所有訓(xùn)練樣本都分類(lèi)正確,即分類(lèi)錯(cuò)誤率為零,分類(lèi)精度為100%,但這是不是我們想要的學(xué)習(xí)器呢?遺憾的是,這樣的學(xué)習(xí)器在多數(shù)情況下都不好.我們實(shí)際希望的,是在新樣本上能表現(xiàn)得很好的學(xué)習(xí)器,為了達(dá)到這個(gè)目的,應(yīng)該從訓(xùn)練樣本中盡可能學(xué)出適用于所有潛在樣本的“普遍規(guī)律”,這樣才能在遇到新樣本時(shí)做出正確的判別.然而,當(dāng)學(xué)習(xí)器把訓(xùn)練樣本學(xué)得“太好”了的時(shí)候,很可能已經(jīng)把訓(xùn)練樣本自身的一些特點(diǎn)當(dāng)作了所有潛在樣本都會(huì)具有的一般性質(zhì),這樣就會(huì)導(dǎo)致泛化性能下降.這種現(xiàn)象在機(jī)器學(xué)習(xí)中稱(chēng)為“過(guò)擬合”(overfitting).