通過(guò)提供實(shí)用的建議、采用直觀(guān)的例子和對相關(guān)應用進(jìn)行有意義的探討,本書(shū)以一種易于理解的方式介紹了機器學(xué)習的一些基礎性概念。主要內容包括貝葉斯分類(lèi)器、近鄰分類(lèi)器、線(xiàn)性與多項式分類(lèi)器、決策樹(shù)、神經(jīng)網(wǎng)絡(luò )和支持向量機。本書(shū)后面幾章展示了如何以“提升(Boosting)”的方式將這些簡(jiǎn)單的工具組織起來(lái)、怎樣將它們應用于更加復雜的領(lǐng)域以及如何處理各種高難度的實(shí)際問(wèn)題。有一章還專(zhuān)門(mén)介紹了非常流行的遺傳算法。
《機器學(xué)習導論》是一本淺顯易懂的機器學(xué)習入門(mén)教材,它以理論與實(shí)際相結合的方式全面地涵蓋了主流的機器學(xué)習理論與技術(shù)。全書(shū)共17章,介紹了貝葉斯分類(lèi)器、近鄰分類(lèi)器、線(xiàn)性與多項式分類(lèi)器、人工神經(jīng)網(wǎng)絡(luò )、決策樹(shù)、基于規則集的分類(lèi)器、遺傳算法等經(jīng)典的機器學(xué)習方法,對計算學(xué)習理論、性能評估、統計顯著(zhù)性等進(jìn)行了討論。講解了集成學(xué)習、多標簽學(xué)習、無(wú)監督學(xué)習和強化學(xué)習等重要的機器學(xué)習領(lǐng)域。本書(shū)還通過(guò)大量的應用實(shí)例,闡述了機器學(xué)習技術(shù)的許多應用技巧。每章結尾對相關(guān)機器學(xué)習工作都進(jìn)行了歷史簡(jiǎn)評,并附有練習、思考題和上機實(shí)驗。
Miroslav Kubat 美國邁阿密大學(xué)教授,從事機器學(xué)習教學(xué)和研究超過(guò)25年。他已發(fā)表100余篇經(jīng)過(guò)同行評審的論文,與人合編了兩本著(zhù)作,是近60個(gè)會(huì )議和研討會(huì )的委員會(huì )委員,并擔任3本學(xué)術(shù)刊物的編委。他在兩個(gè)方面的前沿研究上得到了廣泛贊譽(yù):時(shí)變概念的歸納學(xué)習和在非平衡訓練集上的學(xué)習。此外,在多標簽樣例上的歸納學(xué)習、層次組織的類(lèi)別上的歸納學(xué)習、遺傳算法、神經(jīng)網(wǎng)絡(luò )的初始化等問(wèn)題上,他也做出了很多貢獻。
王勇,西安交通大學(xué)博士,中國海洋大學(xué)信息學(xué)院計算機系副教授,碩士生導師,軟件工程教研室主任,海大惠普軟件實(shí)驗室主任,中國計算機學(xué)會(huì )會(huì )員、IEEE會(huì )員。主要從事軟件工程、軟件過(guò)程度量與管理、大數據、統計分析、機器學(xué)習與數據挖掘等領(lǐng)域的研究。2011-2012年間在美國南佛羅里達大學(xué)做訪(fǎng)問(wèn)學(xué)者。近年來(lái)主持或參與包括國家自然科學(xué)基金在內的研究課題多項,在包括IEEE Transactions、計算機學(xué)報等在內的期刊和會(huì )議發(fā)表論文多篇。擔任美國Taylor & Francis出版集團 《Encyclopediaof Software Engineering》審稿人,Journal of Internet Technology、British Journal of Applied Science & Technology、《電子學(xué)報》審稿人。有十余年行業(yè)軟件開(kāi)發(fā)經(jīng)驗。
譯者序
原書(shū)前言
第 1章 一個(gè)簡(jiǎn)單的機器學(xué)習任務(wù) //1
1.1 訓練集和分類(lèi)器 //1
1.2 題外話(huà):爬山搜索 //4
1.3 機器學(xué)習中的爬山法 //6
1.4 分類(lèi)器的性能 //8
1.5 可用數據的困難 //9
1.6 小結和歷史簡(jiǎn)評 //11
1.7 鞏固知識 //11
第 2章 概率:貝葉斯分類(lèi)器 //14
2.1 單屬性的情況 //14
2.2 離散屬性值的向量 //17
2.3 稀少事件的概率:利用專(zhuān)家的直覺(jué) //20
2.4 如何處理連續屬性 //23
2.5 高斯鐘形函數:一個(gè)標準的 pdf //24
2.6 用高斯函數的集合近似 pdf //26
2.7 小結和歷史簡(jiǎn)評 //30
2.8 鞏固知識 //30
第 3章 相似性:最近鄰分類(lèi)器 //32
3.1 k近鄰法則 //32
3.2 度量相似性 //34
3.3 不相關(guān)屬性與尺度縮放問(wèn)題 //36
3.4 性能方面的考慮 //39
3.5 加權最近鄰 //41 3.6 移除危險的樣例 //42
3.7 移除多余的樣例 //44
3.8 小結和歷史簡(jiǎn)評 //46
3.9 鞏固知識 //46
第 4章 類(lèi)間邊界:線(xiàn)性和多項式分類(lèi)器 //49
4.1 本質(zhì) //49
4.2 加法規則:感知機學(xué)習 //51
4.3 乘法規則: WINNOW //55
4.4 多于兩個(gè)類(lèi)的域 //58
4.5 多項式分類(lèi)器 //60
4.6 多項式分類(lèi)器的特殊方面 //62
4.7 數值域和 SVM //63
4.8 小結和歷史簡(jiǎn)評 //65
4.9 鞏固知識 //66
第 5章 人工神經(jīng)網(wǎng)絡(luò ) //69
5.1 作為分類(lèi)器的多層感知機 //69
5.2 神經(jīng)網(wǎng)絡(luò )的誤差 //72
5.3 誤差的反向傳播 //73
5.4 多層感知機的特殊方面 //77
5.5 結構問(wèn)題 //79
5.6 RBF網(wǎng)絡(luò ) //81
5.7 小結和歷史簡(jiǎn)評 //83
5.8 鞏固知識 //84
第 6章 決策樹(shù) //86
6.1 作為分類(lèi)器的決策樹(shù) //86
6.2 決策樹(shù)的歸納學(xué)習 //89
6.3 一個(gè)屬性承載的信息 //91
6.4 數值屬性的二元劃分 //94
6.5 剪枝 //96
6.6 將決策樹(shù)轉換為規則 //99
6.7 小結和歷史簡(jiǎn)評 //101
6.8 鞏固知識 //101
第 7章 計算學(xué)習理論 //104
7.1 PAC學(xué)習 //104
7.2 PAC可學(xué)習性的實(shí)例 //106
7.3 一些實(shí)踐和理論結果 //108
7.4 VC維與可學(xué)習性 //110
7.5 小結和歷史簡(jiǎn)評 //112
7.6 鞏固知識 //112
第 8章 典型案例 //114
8.1 字符識別 //114
8.2 溢油檢測 //117
8.3 睡眠分類(lèi) //119
8.4 腦機界面 //121
8.5 醫療診斷 //124
8.6 文本分類(lèi) //126
8.7 小結和歷史簡(jiǎn)評 //127
8.8 鞏固知識 //128
第 9章 投票組合簡(jiǎn)介 //130
9.1 “Bagging”方法 //130
9.2 “Schapire’s Boosting”方法 //132
9.3 “Adaboost”方法: “Boosting”方法的實(shí)用版本 //134
9.4 “Boosting”方法的變種 //138
9.5 該方法的計算優(yōu)勢 //139
9.6 小結和歷史簡(jiǎn)評 //141
9.7 鞏固知識 //141
第 10章 了解一些實(shí)踐知識 //143
10.1 學(xué)習器的偏好 //143
10.2 不平衡訓練集 //145
10.3 語(yǔ)境相關(guān)域 //148
10.4 未知屬性值 //150
10.5 屬性選擇 //152
10.6 雜項 //154
10.7 小結和歷史簡(jiǎn)評 //155
10.8 鞏固知識 //156
第 11章 性能評估 //158
11.1 基本性能標準 //158
11.2 精度和查全率 //160
11.3 測量性能的其他方法 //163
11.4 學(xué)習曲線(xiàn)和計算開(kāi)銷(xiāo) //166
11.5 實(shí)驗評估的方法 //167
11.6 小結和歷史簡(jiǎn)評 //169
11.7 鞏固知識 //170
第 12章 統計顯著(zhù)性 //173
12.1 總體抽樣 //173
12.2 從正態(tài)分布中獲益 //176
12.3 置信區間 //178
12.4 一個(gè)分類(lèi)器的統計評價(jià) //180
12.5 另外一種統計評價(jià) //182
12.6 機器學(xué)習技術(shù)的比較 //182
12.7 小結和歷史簡(jiǎn)評 //184
12.8 鞏固知識 //185
第 13章 多標簽學(xué)習 //186
13.1 經(jīng)典機器學(xué)習框架下的多標簽
問(wèn)題 //186
13.2 單獨處理每類(lèi)數據的方法:二元相關(guān)法 //188
13.3 分類(lèi)器鏈 //190
13.4 另一種方法:層疊算法 //191
13.5 層次有序類(lèi)的簡(jiǎn)介 //192
13.6 類(lèi)聚合 //194
13.7 分類(lèi)器性能的評價(jià)標準 //196
13.8 小結和歷史簡(jiǎn)評 //198
13.9 鞏固知識 //199
第 14章 無(wú)監督學(xué)習 //202
14.1 聚類(lèi)分析 //202
14.2 簡(jiǎn)單算法: k均值 //204
14.3 k均值的高級版 //207
14.4 分層聚集 //209
14.5 自組織特征映射:簡(jiǎn)介 //211
14.6 一些重要的細節 //213
14.7 為什么要特征映射 //214
14.8 小結和歷史簡(jiǎn)評 //215
14.9 鞏固知識 //216
第 15章 規則集形式的分類(lèi)器 //218
15.1 由規則描述的類(lèi)別 //218
15.2 通過(guò)序列覆蓋歸納規則集 //220
15.3 謂詞與循環(huán) //222
15.4 更多高級的搜索算子 //224
15.5 小結和歷史簡(jiǎn)評 //225
15.6 鞏固知識 //225
第 16章 遺傳算法 //227
16.1 基本遺傳算法 //227
16.2 個(gè)體模塊的實(shí)現 //229
16.3 為什么能起作用 //231
16.4 過(guò)早退化的危險 //233
16.5 其他遺傳算子 //234
16.6 高級版本 //235
16.7 kNN分類(lèi)器的選擇 //237
16.8 小結和歷史簡(jiǎn)評 //239
16.9 鞏固知識 //240
第 17章 強化學(xué)習 //241
17.1 如何選出最高獎勵的動(dòng)作 //241
17.2 游戲的狀態(tài)和動(dòng)作 //243
17.3 SARSA方法 //245
17.4 小結和歷史簡(jiǎn)評 //245
17.5 鞏固知識 //246
參考文獻 //247