• <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>
    當前位置 : 首頁(yè)  圖書(shū) 正文

    大數據 互聯(lián)網(wǎng)大規模數據挖掘與分布式處理(第2版)簡(jiǎn)介,目錄書(shū)摘

    2020-04-26 10:26 來(lái)源:京東 作者:京東
    大數據處理
    大數據 互聯(lián)網(wǎng)大規模數據挖掘與分布式處理(第2版)
    暫無(wú)報價(jià)
    700+評論 98%好評
    內容簡(jiǎn)介:  本書(shū)由斯坦福大學(xué)“Web挖掘”課程的內容總結而成,主要關(guān)注極大規模數據的挖掘。主要內容包括分布式文件系統、相似性搜索、搜索引擎技術(shù)、頻繁項集挖掘、聚類(lèi)算法、廣告管理及推薦系統。其中相關(guān)章節有對應的習題,以鞏固所講解的內容。讀者更可以從網(wǎng)上獲取相關(guān)拓展材料。
    作者簡(jiǎn)介:本書(shū)由斯坦福大學(xué)“Web挖掘”課程的內容總結而成,主要關(guān)注極大規模數據的挖掘。主要內容包括分布式文件系統、相似性搜索、搜索引擎技術(shù)、頻繁項集挖掘、聚類(lèi)算法、廣告管理及推薦系統。其中相關(guān)章節有對應的習題,以鞏固所講解的內容。讀者更可以從網(wǎng)上獲取相關(guān)拓展材料。
    目錄:第1 章 數據挖掘基本概念 1
    1.1 數據挖掘的定義 1
    1.1.1 統計建模 1
    1.1.2 機器學(xué)習 1
    1.1.3 建模的計算方法 2
    1.1.4 數據匯總 2
    1.1.5 特征抽取 3
    1.2 數據挖掘的統計限制 4
    1.2.1 整體情報預警 4
    1.2.2 邦弗朗尼原理 4
    1.2.3 邦弗朗尼原理的一個(gè)例子 5
    1.2.4 習題 6
    1.3 相關(guān)知識 6
    1.3.1 詞語(yǔ)在文檔中的重要性 6
    1.3.2 哈希函數 7
    1.3.3 索引 8
    1.3.4 二級存儲器 9
    1.3.5 自然對數的底e 10
    1.3.6 冪定律 11
    1.3.7 習題 12
    1.4 本書(shū)概要 13
    1.5 小結 14
    1.6 參考文獻 15
    第2 章 MapReduce及新軟件棧 16
    2.1 分布式文件系統 17
    2.1.1 計算節點(diǎn)的物理結構 17
    2.1.2 大規模文件系統的結構 18
    2.2 MapReduce 19
    2.2.1 Map 任務(wù) 20
    2.2.2 按鍵分組 20
    2.2.3 Reduce 任務(wù) 21
    2.2.4 組合器 21
    2.2.5 MapReduce 的執行細節 22
    2.2.6 節點(diǎn)失效的處理 23
    2.2.7 習題 23
    2.3 使用MapReduce 的算法 23
    2.3.1 基于MapReduce 的矩陣—向量
    乘法實(shí)現 24
    2.3.2 向量v 法放入內存時(shí)的處理 24
    2.3.3 關(guān)系代數運算 25
    2.3.4 基于MapReduce 的選擇運算 27
    2.3.5 基于MapReduce 的投影運算 27
    2.3.6 基于MapReduce 的并、交和差運算 28
    2.3.7 基于MapReduce 的自然連接運算 28
    2.3.8 基于MapReduce 的分組和聚合運算 29
    2.3.9 矩陣乘法 29
    2.3.10 基于單步MapReduce 的矩陣乘法 30
    2.3.11 習題 31
    2.4 MapReduce 的擴展 31
    2.4.1 工作流系統 32
    2.4.2 MapReduce 的遞歸擴展版本 33
    2.4.3 Pregel 系統 35
    2.4.4 習題 35
    2.5 通信開(kāi)銷(xiāo)模型 36
    2.5.1 任務(wù)網(wǎng)絡(luò )的通信開(kāi)銷(xiāo) 36
    2.5.2 時(shí)鐘時(shí)間 37
    2.5.3 多路連接 38
    2.5.4 習題 41
    2.6 MapReduce 復雜性理論 41
    2.6.1 Reducer 規模及復制率 41
    2.6.2 一個(gè)例子:相似性連接 42
    2.6.3 MapReduce 問(wèn)題的一個(gè)圖模型 44
    2.6.4 映射模式 45
    2.6.5 并非所有輸入都存在時(shí)的處理 46
    2.6.6 復制率的下界 46
    2.6.7 案例分析:矩陣乘法 48
    2.6.8 習題 51
    2.7 小結 51
    2.8 參考文獻 53
    第3 章 相似項發(fā)現 55
    3.1 近鄰搜索的應用 55
    3.1.1 集合的Jaccard 相似度 55
    3.1.2 文檔的相似度 56
    3.1.3 協(xié)同過(guò)濾——一個(gè)集合相似問(wèn)題 57
    3.1.4 習題 58
    3.2 文檔的shingling 58
    3.2.1 k-shingle 58
    3.2.2 shingle 大小的選擇 59
    3.2.3 對shingle 進(jìn)行哈希 59
    3.2.4 基于詞的shingle 60
    3.2.5 習題 60
    3.3 保持相似度的集合摘要表示 61
    3.3.1 集合的矩陣表示 61
    3.3.2 最小哈希 62
    3.3.3 最小哈希及Jaccard 相似度 62
    3.3.4 最小哈希簽名 63
    3.3.5 最小哈希簽名的計算 63
    3.3.6 習題 66
    3.4 文檔的局部敏感哈希算法 67
    3.4.1 面向最小哈希簽名的LSH 67
    3.4.2 行條化策略的分析 68
    3.4.3 上述技術(shù)的綜合 69
    3.4.4 習題 70
    3.5 距離測度 70
    3.5.1 距離測度的定義 71
    3.5.2 歐氏距離 71
    3.5.3 Jaccard 距離 72
    3.5.4 余弦距離72
    3.5.5 編輯距離 73
    3.5.6 海明距離 74
    3.5.7 習題 74
    3.6 局部敏感函數理論 75
    3.6.1 局部敏感函數 76
    3.6.2 面向Jaccard 距離的局部敏感函數族 77
    3.6.3 局部敏感函數族的放大處理 77
    3.6.4 習題 79
    3.7 面向其他距離測度的LSH 函數族 80
    3.7.1 面向海明距離的LSH 函數族 80
    3.7.2 隨機超平面和余弦距離 80
    3.7.3 梗概 81
    3.7.4 面向歐氏距離的LSH 函數族 82
    3.7.5 面向歐氏空間的更多LSH函數族 83
    3.7.6 習題 83
    3.8 LSH 函數的應用 84
    3.8.1 實(shí)體關(guān)聯(lián) 84
    3.8.2 一個(gè)實(shí)體關(guān)聯(lián)的例子 85
    3.8.3 記錄匹配的驗證 86
    3.8.4 指紋匹配 87
    3.8.5 適用于指紋匹配的LSH函數族 87
    3.8.6 相似新聞報道檢測 88
    3.8.7 習題 89
    3.9 面向高相似度的方法 90
    3.9.1 相等項發(fā)現 90
    3.9.2 集合的字符串表示方法 91
    3.9.3 基于長(cháng)度的過(guò)濾 91
    3.9.4 前綴索引 92
    3.9.5 位置信息的使用 93
    3.9.6 使用位置和長(cháng)度信息的索引 94
    3.9.7 習題 96
    3.10 小結 97
    3.11 參考文獻 98
    第4 章 數據流挖掘 100
    4.1 流數據模型 100
    4.1.1 一個(gè)數據流管理系統 100
    4.1.2 流數據源的例子 101
    4.1.3 流查詢(xún) 102
    4.1.4 流處理中的若干問(wèn)題 103
    4.2 流當中的數據抽樣 103
    4.2.1 一個(gè)富于啟發(fā)性的例子 104
    4.2.2 代表性樣本的獲取 104
    4.2.3 一般的抽樣問(wèn)題 105
    4.2.4 樣本規模的變化 105
    4.2.5 習題 106
    4.3 流過(guò)濾 106
    4.3.1 一個(gè)例子 106
    4.3.2 布隆過(guò)濾器 107
    4.3.3 布隆過(guò)濾方法的分析 107
    4.3.4 習題108
    4.4 流中獨立元素的數目統計 109
    4.4.1 獨立元素計數問(wèn)題 109
    4.4.2 FM 算法 109
    4.4.3 組合估計 110
    4.4.4 空間需求 111
    4.4.5 習題 111
    4.5 矩估計 111
    4.5.1 矩定義 111
    4.5.2 二階矩估計的AMS 算法 112
    4.5.3 AMS 算法有效的原因 113
    4.5.4 更高階矩的估計 113
    4.5.5 限流的處理 114
    4.5.6 習題 115
    4.6 窗口內的計數問(wèn)題 116
    4.6.1 精確計數的開(kāi)銷(xiāo) 116
    4.6.2 DGIM 算法 116
    4.6.3 DGIM 算法的存儲需求 118
    4.6.4 DGIM 算法中的查詢(xún)應答 118
    4.6.5 DGIM 條件的保持 119
    4.6.6 降低錯誤率 120
    4.6.7 窗口內計數問(wèn)題的擴展 120
    4.6.8 習題 121
    4.7 衰減窗口 121
    4.7.1 最常見(jiàn)元素問(wèn)題 121
    4.7.2 衰減窗口的定義 122
    4.7.3 最流行元素的發(fā)現 123
    4.8 小結 123
    4.9 參考文獻 124
    第5 章 鏈接分析 126
    5.1 PageRank 126
    5.1.1 早期的搜索引擎及詞項作弊 126
    5.1.2 PageRank 的定義 128
    5.1.3 Web 結構 130
    5.1.4 避免終止點(diǎn) 132
    5.1.5 采集器陷阱及“抽稅”法 134
    5.1.6 PageRank 在搜索引擎中的使用 136
    5.1.7 習題 136
    5.2 PageRank 的快速計算 137
    5.2.1 轉移矩陣的表示 137
    5.2.2 基于MapReduce 的PageRank迭代計算 138
    5.2.3 結果向量合并時(shí)的組合器使用 139
    5.2.4 轉移矩陣中塊的表示 140
    5.2.5 其他高效的PageRank 迭代方法 141
    5.2.6 習題 142
    5.3 面向主題的PageRank 142
    5.3.1 動(dòng)機 142
    5.3.2 有偏
    熱門(mén)推薦文章
    相關(guān)優(yōu)評榜
    品類(lèi)齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價(jià),暢選無(wú)憂(yōu)
    購物指南
    購物流程
    會(huì )員介紹
    生活旅行/團購
    常見(jiàn)問(wèn)題
    大家電
    聯(lián)系客服
    配送方式
    上門(mén)自提
    211限時(shí)達
    配送服務(wù)查詢(xún)
    配送費收取標準
    海外配送
    支付方式
    貨到付款
    在線(xiàn)支付
    分期付款
    郵局匯款
    公司轉賬
    售后服務(wù)
    售后政策
    價(jià)格保護
    退款說(shuō)明
    返修/退換貨
    取消訂單
    特色服務(wù)
    奪寶島
    DIY裝機
    延保服務(wù)
    京東E卡
    京東通信
    京東JD+
    亚洲精品乱码久久久97_国产伦子一区二区三区_久久99精品久久久欧美_天天看片永久av影城网页
  • <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>