• <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>
    當前位置 : 首頁(yè)  圖書(shū) 正文

    數據清洗/大數據應用人才培養系列教材簡(jiǎn)介,目錄書(shū)摘

    2020-01-02 14:49 來(lái)源:京東 作者:京東
    人才培養
    數據清洗/大數據應用人才培養系列教材
    暫無(wú)報價(jià)
    100+評論 98%好評
    內容簡(jiǎn)介:數據清洗是大數據領(lǐng)域不可缺少的環(huán)節,用來(lái)發(fā)現并糾正數據中可能存在的錯誤,針對數據審查過(guò)程中發(fā)現的錯誤值、缺失值、異常值、可疑數據,選用適當方法進(jìn)行“清理”,使“臟”數據變?yōu)椤案蓛簟睌祿?
    本書(shū)共分為8章:第1章主要介紹數據清洗的概念、任務(wù)和流程,數據標準化概念及數據倉庫技術(shù)等;第2章主要介紹Windows和類(lèi)UNIX操作系統下的數據常規格式、數據編碼及數據類(lèi)型轉換等;第3章介紹ETL概念、數據清洗的技術(shù)路線(xiàn)、ETL工具及ETL子系統等;第4章介紹Excel、Kettle、OpenRefine、DataWrangler和Hawk的安裝及使用等;第5章介紹Kettle下文本文件抽取、Web數據抽取、數據庫數據抽取及增量數據抽取等;第6章介紹數據清洗步驟、數據檢驗、數據錯誤處理、數據質(zhì)量評估及數據加載;第7章介紹網(wǎng)頁(yè)結構,利用網(wǎng)絡(luò )爬蟲(chóng)技術(shù)進(jìn)行數據采集,利用JavaScript技術(shù)進(jìn)行行為日志數據采集等;第8章介紹RDBMS的數據清洗方法和數據脫敏處理技術(shù)等。
    本書(shū)系統地講解了數據清洗理論和實(shí)際應用,適用于高職高專(zhuān)院校和應用型本科的大數據課程教學(xué),也適用于希望了解數據清洗的廣大讀者。

    作者簡(jiǎn)介:李法平- 副教授/系統分析師,碩士,重慶電子工程職業(yè)學(xué)院軟件學(xué)院移動(dòng)應用開(kāi)發(fā)教研室主任,主要從事高職軟件類(lèi)專(zhuān)業(yè)教學(xué)研究、教育信息化系統和企業(yè)信息化系統等應用技術(shù)研究。
    目錄:第1章  數據清洗概述 1
    1.1  數據清洗簡(jiǎn)介 1
    1.1.1  數據科學(xué)過(guò)程 1
    1.1.2  數據清洗定義 2
    1.1.3  數據清洗任務(wù) 3
    1.1.4  數據清洗流程 4
    1.1.5  數據清洗環(huán)境 5
    1.1.6  數據清洗實(shí)例說(shuō)明 6
    1.2  數據標準化 7
    1.2.1  數據標準化概念 7
    1.2.2  數據標準化常用方法 8
    1.3  數據倉庫簡(jiǎn)介 9
    1.3.1  數據倉庫定義 9
    1.3.2  數據倉庫組成要素 10
    1.3.3  數據倉庫分類(lèi) 11
    1.3.4  數據倉庫相關(guān)技術(shù) 12
    1.3.5  常用工具簡(jiǎn)介 13
    1.4  習題 14
    第2章  數據格式與編碼 16
    2.1  文件文本格式 16
    2.1.1  常見(jiàn)文本格式 17
    2.1.2  xls及xlsx文件格式 18
    2.1.3  JSON文本格式 19
    2.1.4  HTML和XML文本格式 19
    2.2  數據編碼 20
    2.2.1  數據類(lèi)型 21
    2.2.2  數據類(lèi)型間轉換 25
    2.2.3 字符編碼 26
    2.2.4  空值和亂碼 28
    2.3  數據轉換 28
    2.3.1  電子表格轉換 29
    2.3.2  RDBMS數據轉換 30
    2.4  習題 30
    第3章  基本技術(shù)方法 31
    3.1  ETL入門(mén) 31
    3.1.1  ETL解決方案 31
    3.1.2  ETL基本構成 33
    3.1.3  ETL技術(shù)選型 35
    3.2  技術(shù)路線(xiàn) 35
    3.2.1  文本清洗路線(xiàn) 35
    3.2.2  RDBMS清洗路線(xiàn) 36
    3.2.3  Web內容清洗路線(xiàn) 36
    3.3  ETL工具 37
    3.3.1  ETL功能 37
    3.3.2  開(kāi)源ETL工具 38
    3.4  ETL子系統 39
    3.4.1  抽取 39
    3.4.2  清洗和更正數據 39
    3.4.3  數據發(fā)布 40
    3.4.4  管理ETL 41
    3.5  習題 41
    第4章  數據清洗常用工具及基本操作 42
    4.1  Microsoft Excel數據清洗基本操作 42
    4.1.1  Excel數據清洗概述 42
    4.1.2  Excel數據清洗 53
    4.2  Kettle簡(jiǎn)介及基本操作 57
    4.2.1  Kettle軟件概述 57
    4.2.2  Kettle基本操作 60
    4.2.3  Kettle數據清洗實(shí)例操作 64
    4.3  OpenRefine簡(jiǎn)介及基本操作 68
    4.3.1  OpenRefine軟件概述 69
    4.3.2  OpenRefine基本操作 70
    4.3.3  OpenRefine數據清洗實(shí)例操作 73
    4.4  DataWrangler簡(jiǎn)介及基本操作 80
    4.4.1  DataWrangler軟件概述 80
    4.4.2  DataWrangler基本操作 81
    4.4.3  DataWrangler數據清洗實(shí)例操作 82
    4.5  Hawk簡(jiǎn)介及基本操作 86
    4.5.1  Hawk軟件概述 86
    4.5.2  Hawk基本操作 88
    4.5.3  Hawk數據清洗實(shí)例操作 91
    4.6  上機練習與實(shí)訓 98
    4.7  習題 103
    第5章  數據抽取 104
    5.1  文本文件抽取 104
    5.1.1  制表符文本抽取 107
    5.1.2  CSV文件抽取 111
    5.2  Web數據抽取 114
    5.2.1  HTML文件抽取 114
    5.2.2  JSON數據抽取 116
    5.2.3  XML數據抽取 120
    5.3  數據庫數據抽取 123
    5.3.1  數據導入導出 123
    5.3.2  ETL工具抽取 124
    5.3.3  SQL到NoSQL抽取 127
    5.4  上機練習與實(shí)訓 135
    5.5  習題 143
    第6章  數據轉換與加載 144
    6.1  數據清洗轉換 144
    6.1.1  數據清洗 145
    6.1.2  數據檢驗 151
    6.1.3  錯誤處理 156
    6.2  數據質(zhì)量評估 161
    6.2.1  數據評估指標 161
    6.2.2  審計數據 163
    6.3  數據加載 164
    6.3.1  數據加載的概念 164
    6.3.2  數據加載的方式 164
    6.3.3  批量數據加載 165
    6.3.4  數據加載異常處理 165
    6.4  上機練習與實(shí)訓 166
    6.5  習題 173
    第7章  采集Web數據實(shí)例 175
    7.1  網(wǎng)頁(yè)結構 175
    7.1.1  DOM模型 175
    7.1.2  正則表達式 178
    7.2  網(wǎng)絡(luò )爬蟲(chóng) 181
    7.2.1  網(wǎng)絡(luò )爬蟲(chóng)簡(jiǎn)介 181
    7.2.2  網(wǎng)絡(luò )爬蟲(chóng)異常處理 189
    7.3  行為日志采集 190
    7.3.1  用戶(hù)實(shí)時(shí)行為數據采集 190
    7.3.2  用戶(hù)實(shí)時(shí)行為數據分析 193
    7.4  上機練習與實(shí)訓 195
    7.5  習題 198
    第8章  清洗RDBMS數據實(shí)例 199
    8.1  準備工作 199
    8.1.1  準備待清洗的數據集 200
    8.1.2  搭建操作環(huán)境 200
    8.1.3  數據導入MySQL 201
    8.2  數據庫數據清洗 205
    8.2.1  缺失值清洗 205
    8.2.2  格式內容清洗 209
    8.2.3  邏輯錯誤清洗 214
    8.2.4  非需求數據清洗 217
    8.3  數據脫敏處理 218
    8.4  習題 222
    參考文獻 223
    附錄A  大數據和人工智能實(shí)驗環(huán)境 224
    附錄B  Hadoop環(huán)境要求 234
    附錄C  名詞解釋 236

    熱門(mén)推薦文章
    相關(guān)優(yōu)評榜
    品類(lèi)齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價(jià),暢選無(wú)憂(yōu)
    購物指南
    購物流程
    會(huì )員介紹
    生活旅行/團購
    常見(jiàn)問(wèn)題
    大家電
    聯(lián)系客服
    配送方式
    上門(mén)自提
    211限時(shí)達
    配送服務(wù)查詢(xún)
    配送費收取標準
    海外配送
    支付方式
    貨到付款
    在線(xiàn)支付
    分期付款
    郵局匯款
    公司轉賬
    售后服務(wù)
    售后政策
    價(jià)格保護
    退款說(shuō)明
    返修/退換貨
    取消訂單
    特色服務(wù)
    奪寶島
    DIY裝機
    延保服務(wù)
    京東E卡
    京東通信
    京東JD+
    亚洲精品乱码久久久97_国产伦子一区二区三区_久久99精品久久久欧美_天天看片永久av影城网页
  • <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>