本書(shū)是由中國大數據應用聯(lián)盟人工智能專(zhuān)家委員會(huì )主任劉鵬教授主編的一本系統學(xué)習數據標注技術(shù)的教材。本書(shū)使用淺顯易懂的語(yǔ)言,系統地介紹了數據標注的基本概念、分類(lèi)、流程、質(zhì)量檢驗、管理和應用等。通過(guò)理論與實(shí)戰相結合的方式,幫助讀者由淺入深進(jìn)行學(xué)習,從而真正掌握數據標注的核心技術(shù)、實(shí)施和管理方法。本書(shū)既可以作為培養應用型人才的課程教材,也適用于初學(xué)者,以及廣大的數據標注行業(yè)從業(yè)者。數據標注行業(yè)迅速成長(cháng),目前正缺乏一本q威教材,希望本書(shū)能夠填補這個(gè)空白。
劉鵬,清華大學(xué)博士畢業(yè)?,F任中國大數據技術(shù)與應用聯(lián)盟副理事長(cháng)、中國大數據應用聯(lián)盟人工智能委員會(huì )主任、中國云計算專(zhuān)家咨詢(xún)委員會(huì )專(zhuān)家委員、工業(yè)和信息化部云計算研究中心專(zhuān)家。
第1章 數據標注概述…………………………………………1
1.1 數據標注的起源與發(fā)展…………………………………………1
1.1.1 什么是數據標注 …………………………………………3
1.1.2 數據標注分類(lèi)概述 ………………………………………4
1.1.3 數據標注流程概述 ………………………………………6
1.2 數據標注的應用場(chǎng)景……………………………………… 7
1.2.1 出行行業(yè) …………………………………………………7
1.2.2 金融行業(yè) …………………………………………………8
1.2.3 醫療行業(yè) …………………………………………………8
1.2.4 家居行業(yè) …………………………………………………8
1.2.5 安防行業(yè) …………………………………………………9
1.2.6 公共服務(wù) …………………………………………………9
1.2.7 電子商務(wù) …………………………………………………10
1.3 有多少智能,就有多少人工……………………………………10
1.3.1 有監督的機器學(xué)習 ………………………………………10
1.3.2 最后一批人工智能的“老師” ……………………………11
1.4 數據越多,智能越好……………………………………………12
1.5 作業(yè)與練習………………………………………………………14
參考文獻… ……………………………………………………………14
第2章 數據采集與清洗………………………………………16
2.1 標注對象…………………………………………………………16
2.1.1 主要的數據來(lái)源 …………………………………………16
2.1.2 常見(jiàn)的標注數據 …………………………………………17
X 數據標注工程
2.2 數據采集………………………………………………………… 18
2.2.1 數據采集方法 …………………………………………… 18
2.2.2 數據采集流程 …………………………………………… 19
2.2.3 標注數據采集 …………………………………………… 20
2.3 數據清洗…………………………………………………………23
2.3.1 數據清洗方法 …………………………………………… 24
2.3.2 數據清洗流程 …………………………………………… 26
2.3.3 MapReduce 數據去重 …………………………………… 26
2.4 作業(yè)與練習………………………………………………………28
參考文獻… ……………………………………………………………28
第3 章 數據標注分類(lèi)…………………………………………29
3.1 圖像標注…………………………………………………………29
3.1.1 什么是圖像標注 ………………………………………… 29
3.1.2 圖像標注應用領(lǐng)域 ……………………………………… 30
3.2 語(yǔ)音標注…………………………………………………………35
3.2.1 什么是語(yǔ)音標注 ………………………………………… 35
3.2.2 客服錄音數據標注規范 ………………………………… 35
3.3 文本標注…………………………………………………………38
3.3.1 什么是文本標注 ………………………………………… 38
3.3.2 文本標注應用領(lǐng)域 ……………………………………… 38
3.4 作業(yè)與練習……………………………………………………… 41
參考文獻… …………………………………………………………… 41
第4 章 數據標注質(zhì)量檢驗……………………………………42
4.1 數據質(zhì)量影響算法效果…………………………………………42
4.2 數據標注質(zhì)量標準………………………………………………44
4.2.1 圖像標注質(zhì)量標準 ……………………………………… 44
4.2.2 語(yǔ)音標注質(zhì)量標準 ……………………………………… 47
4.2.3 文本標注質(zhì)量標準 ……………………………………… 48
4.3 數據標注質(zhì)量檢驗方法…………………………………………48
4.3.1 實(shí)時(shí)檢驗 ………………………………………………… 48
目 錄XI
4.3.2 全樣檢驗 ………………………………………………… 50
4.3.3 抽樣檢驗 ………………………………………………… 50
4.4 作業(yè)與練習………………………………………………………53
參考文獻… ……………………………………………………………53
第5 章 數據標注管理………………………………………… 55
5.1 數據標注工廠(chǎng)設計………………………………………………55
5.2 數據標注管理架構………………………………………………59
5.3 數據安全管理與質(zhì)量管理體系…………………………………60
5.3.1 數據存儲安全管理要求 ………………………………… 60
5.3.2 工廠(chǎng)人員行為管理 ……………………………………… 61
5.3.3 溯源體系建設 …………………………………………… 61
5.3.4 質(zhì)量管理體系建設 ……………………………………… 62
5.4 數據標注項目評估………………………………………………63
5.5 數據標注訂單管理………………………………………………64
5.6 數據標注客戶(hù)關(guān)系管理…………………………………………65
5.7 作業(yè)與練習………………………………………………………66
參考文獻… ……………………………………………………………66
第6 章 數據標注應用…………………………………………68
6.1 自動(dòng)駕駛…………………………………………………………68
6.1.1 自動(dòng)駕駛的發(fā)展 ………………………………………… 68
6.1.2 自動(dòng)駕駛的9 種數據標注 ……………………………… 70
6.2 智能安防…………………………………………………………75
6.2.1 智能安防的發(fā)展分析 …………………………………… 75
6.2.2 智能安防的5 種數據標注 ……………………………… 77
6.3 智能醫療…………………………………………………………80
6.3.1 智能醫療的發(fā)展 ………………………………………… 80
6.3.2 智能醫療應用的4 種數據標注 ………………………… 80
6.4 作業(yè)與練習………………………………………………………82
參考文獻… ……………………………………………………………83
XII 數據標注工程
第7 章 數據標注實(shí)戰…………………………………………84
7.1 實(shí)戰環(huán)境搭建……………………………………………………84
7.1.1 標注工具安裝環(huán)境搭建 ………………………………… 84
7.1.2 LabelImg 標框標注工具的使用方法 …………………… 92
7.1.3 Labelme 工具的安裝與使用方法 ……………………… 100
7.2 醫療影像標注………………………………………………… 104
7.3 遙感影像標注………………………………………………… 106
7.4 車(chē)牌圖像標注………………………………………………… 109
7.4.1 車(chē)牌圖像標框標注 …………………………………… 109
7.4.2 車(chē)牌圖像分類(lèi)標注 …………………………………… 110
7.5 人像數據標注………………………………………………… 113
7.5.1 行人圖像標注 ………………………………………… 113
7.5.2 人臉數據標注 ………………………………………… 116
7.6 作業(yè)與練習…………………………………………………… 121
參考文獻… ………………………………………………………… 121
附錄 大數據實(shí)驗平臺(數據標注版)… ………………… 122