您現(xiàn)在的位置：首頁 > IT資訊 > 軟件研發(fā) > “自助法”(bootstrapping)是一個比較好的解決方案

“自助法”(bootstrapping)是一個比較好的解決方案

2018-08-16 09:57:41　|　來源：中培企業(yè)IT培訓(xùn)網(wǎng)

2.2.3 自助法
我們希望評估的是用D訓(xùn)練出的模型，但在留出法和交叉驗(yàn)證法中，由于保留了一部分樣本用于測試，因此實(shí)際評估的模型所使用的訓(xùn)練集比D小，這必然會引入一些因訓(xùn)練樣本規(guī)模不同而導(dǎo)致的估計偏差．留一法受訓(xùn)練樣本規(guī)模變化的影響較小，但計算復(fù)雜度又太高了：有沒有什么辦法可以減少訓(xùn)練樣本規(guī)模不同造成的影響，同時還能比較高效地進(jìn)行實(shí)驗(yàn)估計呢？
　　“自助法”(bootstrapping)是一個比較好的解決方案，它直接以自助采樣法(bootstrap sampling)為基礎(chǔ)[Efron and Tibshirani，1993].給定包含m個樣本的數(shù)據(jù)集D，我們對它進(jìn)行采樣產(chǎn)生數(shù)據(jù)集D7：每次隨機(jī)從D中挑選一個樣本，將其拷貝放入D'，然后再將該樣本放回初始數(shù)據(jù)集D中，使得該樣本在下次采樣時仍有可能被采到；這個過程重復(fù)執(zhí)行m次后，我們就得到了包含m個樣本的數(shù)據(jù)集D7，這就是自助采樣的結(jié)果．顯然，D中有一部分樣本會在D'中多次出現(xiàn)，而另一部分樣本不出現(xiàn)．可以做一個簡單的估計，樣本在m次采樣中始終不被采到的概率是（1 -擊）…，取極限得到即通過自助采樣，初始數(shù)據(jù)集D中約有36.8070的樣本未出現(xiàn)在采樣數(shù)據(jù)集D'中，于是我們可將D'用作訓(xùn)練集，DD'用作測試集；這樣，實(shí)際評估的模型與期望評估的模型都使用m個訓(xùn)練樣本，而我們?nèi)杂袛?shù)據(jù)總量約1/3的、沒在訓(xùn)練集中出現(xiàn)的樣本用于測試．這樣的測試結(jié)果，亦稱“包外估計”(out-of-bagestimate)．自助法在數(shù)據(jù)集較小、難以有效劃分訓(xùn)練／測試集時很有用；此外，自助法能從初始數(shù)據(jù)集中產(chǎn)生多個不同的訓(xùn)練集，這對集成學(xué)習(xí)等方法有很大的好處，然而，自助法產(chǎn)生的數(shù)據(jù)集改變了初始數(shù)據(jù)集的分布，這會引入估計偏差．因此，在初始數(shù)據(jù)量足夠時，留出法和交叉驗(yàn)證法更常用一些．?

標(biāo)簽： bootstrapping