根據訓練數據是否擁有標記信息,學習任務可大致劃分為兩大類:“監(jiān)督學習”(supervised learning)和“無監(jiān)督學習”(unsupervised learning),分類和回歸是前者的代表,而聚類則是后者的代表.需注意的是,機器學習的目標是使學得的模型能很好地適用于“新樣本”,而不是僅僅在訓練樣本上工作得很好;即便對聚類這樣的無監(jiān)督學習任務,我們也希望學得的簇劃分能適用于沒在訓練集中出現的樣本.學得模型適用于新樣本的能力,稱為“泛化”(generalization)能力.具有強泛化能力的模型能很好地適用于整個樣本空間.
于是,盡管訓練集通常只是樣本空間的一個很小的采樣,我們仍希望它能很好地反映出樣本空間的特性,否則就很難期望在訓練集上學得的模型能在整個樣本空間上都工作得很好,通常假設樣本空間中全體樣本服從一個未知“分布”(distribution)D,我們獲得的每個樣本都是獨立地從這個分布上采樣獲得的,即“獨立同分布”(independent and identicallydistributed,簡稱紙d.).一般而言,訓練樣本越多,我們得到的關于D的信息越多,這樣就越有可能通過學習獲得具有強泛化能力的模型.??