第二章 模型評(píng)估與選擇
現(xiàn)實(shí)任務(wù)中通常是利用有限個(gè)測(cè)試樣例來(lái)繪制ROC圖,此時(shí)僅能獲得有限個(gè)(真正例率,假正例率)坐標(biāo)對(duì),無(wú)法產(chǎn)生圖2.4(a)中的光滑ROC曲線(xiàn),只能基于有限個(gè)測(cè)試樣例篆繪制出如圖2.4(b)所示的近似ROC曲線(xiàn).繪圖過(guò)程很簡(jiǎn)單:給定m+個(gè)正例和制P-R圖時(shí)有同樣問(wèn)題本書(shū)到這里才介紹近似曲 m一個(gè)反例,根據(jù)學(xué)習(xí)器預(yù)測(cè)結(jié)果對(duì)樣例進(jìn)行排序,然后把分類(lèi)閾值設(shè)為最大,線(xiàn)的繪制.是為了便于下 即把所有樣例均預(yù)測(cè)為反例,此時(shí)真正例率和假正例率均為0,在坐標(biāo)(0,0)處面介紹AUC的計(jì)算,標(biāo)記一個(gè)點(diǎn).然后,將分類(lèi)閾值依次設(shè)為每個(gè)樣例的預(yù)測(cè)值,即依次將每個(gè)樣例劃分為正例.設(shè)前一個(gè)標(biāo)記點(diǎn)坐標(biāo)為(z,可),當(dāng)前若為真正例,則對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(z,可十嘉);當(dāng)前若為假正例,則對(duì)應(yīng)標(biāo)記點(diǎn)的坐標(biāo)為(茁+ml-,可),然后用線(xiàn)段連接相鄰點(diǎn)即得,進(jìn)行學(xué)習(xí)器的比較時(shí),與P-R圖相似,若一個(gè)學(xué)習(xí)器的ROC曲線(xiàn)被另一個(gè)學(xué)習(xí)器的曲線(xiàn)完全“包住”,則可斷言后者的性能優(yōu)于前者;若兩個(gè)學(xué)習(xí)器的ROC曲線(xiàn)發(fā)生交叉,則難以一般性地?cái)嘌詢(xún)烧呤雰?yōu)孰劣.此時(shí)如果一定要進(jìn)行比較,則較為合理的判據(jù)是比較ROC曲線(xiàn)下的面積,即AUC (Area UnderROC Curve),如圖2.4所示.從定義可知,AUC可通過(guò)對(duì)ROC曲線(xiàn)下各部分的面積求和而得.假定ROC曲線(xiàn)是由坐標(biāo)為{(Xl,可1),(X2,Y2),…,(Xm,Ym)].的點(diǎn)按序連接而形成(Xl=0,Xm=1)。