• <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>
    當前位置 : 首頁(yè)  圖書(shū) 正文

    Spark快速大數據分析 簡(jiǎn)介,目錄書(shū)摘

    2020-02-06 17:29 來(lái)源:京東 作者:京東
    spark快速大數據分析
    Spark快速大數據分析
    暫無(wú)報價(jià)
    1.3萬(wàn)+評論 98%好評
    編輯推薦:  Spark開(kāi)發(fā)者出品!
      《Spark快速大數據分析》是一本為Spark初學(xué)者準備的書(shū),它沒(méi)有過(guò)多深入實(shí)現細節,而是更多關(guān)注上層用戶(hù)的具體用法。不過(guò),本書(shū)絕不僅僅限于Spark的用法,它對Spark的核心概念和基本原理也有較為全面的介紹,讓讀者能夠知其然且知其所以然。
      本書(shū)介紹了開(kāi)源集群計算系統Apache Spark,它可以加速數據分析的實(shí)現和運行。利用Spark,你可以用Python、Java以及Scala的簡(jiǎn)易API來(lái)快速操控大規模數據集。
      本書(shū)由Spark開(kāi)發(fā)者編寫(xiě),可以讓數據科學(xué)家和工程師即刻上手。你能學(xué)到如何使用簡(jiǎn)短的代碼實(shí)現復雜的并行作業(yè),還能了解從簡(jiǎn)單的批處理作業(yè)到流處理以及機器學(xué)習等應用。
    內容簡(jiǎn)介:  《Spark快速大數據分析》由 Spark 開(kāi)發(fā)者及核心成員共同打造,講解了網(wǎng)絡(luò )大數據時(shí)代應運而生的、能高效迅捷地分析處理數據的工具——Spark,它帶領(lǐng)讀者快速掌握用 Spark 收集、計算、簡(jiǎn)化和保存海量數據的方法,學(xué)會(huì )交互、迭代和增量式分析,解決分區、數據本地化和自定義序列化等問(wèn)題。
    作者簡(jiǎn)介:  Holden Karau,是Databricks的軟件開(kāi)發(fā)工程師,活躍于開(kāi)源社區。她還著(zhù)有《Spark快速數據處理》。

      Andy Konwinski,是Databricks聯(lián)合創(chuàng )始人,Apache Spark項目技術(shù)專(zhuān)家,還是Apache Mesos項目的聯(lián)合發(fā)起人。

      Patrick Wendell,是Databricks聯(lián)合創(chuàng )始人,也是Apache Spark項目技術(shù)專(zhuān)家。他還負責維護Spark核心引擎的幾個(gè)子系統。

      Matei Zaharia,是Databricks的CTO,同時(shí)也是Apache Spark項目發(fā)起人以及Apache基金會(huì )副主席。
    目錄:推薦序  xi
    譯者序  xiv
    序  xvi
    前言  xvii
    第1章 Spark數據分析導論  1
    1.1 Spark是什么  1
    1.2 一個(gè)大一統的軟件?! ?
    1.2.1 Spark Core  2
    1.2.2 Spark SQL  3
    1.2.3 Spark Streaming  3
    1.2.4 MLlib  3
    1.2.5 GraphX  3
    1.2.6 集群管理器  4
    1.3 Spark的用戶(hù)和用途  4
    1.3.1 數據科學(xué)任務(wù)  4
    1.3.2 數據處理應用  5
    1.4 Spark簡(jiǎn)史  5
    1.5 Spark的版本和發(fā)布  6
    1.6 Spark的存儲層次  6
    第2章 Spark下載與入門(mén)  7
    2.1 下載Spark  7
    2.2 Spark中Python和Scala的shell  9
    2.3 Spark 核心概念簡(jiǎn)介  12
    2.4 獨立應用  14
    2.4.1 初始化SparkContext  15
    2.4.2 構建獨立應用  16
    2.5 總結  19
    第3章 RDD編程  21
    3.1 RDD基礎  21
    3.2 創(chuàng )建RDD  23
    3.3 RDD操作  24
    3.3.1 轉化操作  24
    3.3.2 行動(dòng)操作  26
    3.3.3 惰性求值  27
    3.4 向Spark傳遞函數  27
    3.4.1 Python  27
    3.4.2 Scala  28
    3.4.3 Java  29
    3.5 常見(jiàn)的轉化操作和行動(dòng)操作  30
    3.5.1 基本RDD  30
    3.5.2 在不同RDD類(lèi)型間轉換  37
    3.6 持久化( 緩存)  39
    3.7 總結  40
    第4章 鍵值對操作  41
    4.1 動(dòng)機  41
    4.2 創(chuàng )建Pair RDD  42
    4.3 Pair RDD的轉化操作  42
    4.3.1 聚合操作  45
    4.3.2 數據分組  49
    4.3.3 連接  50
    4.3.4 數據排序  51
    4.4 Pair RDD的行動(dòng)操作  52
    4.5 數據分區(進(jìn)階)  52
    4.5.1 獲取RDD的分區方式  55
    4.5.2 從分區中獲益的操作  56
    4.5.3 影響分區方式的操作  57
    4.5.4 示例:PageRank  57
    4.5.5 自定義分區方式  59
    4.6 總結  61
    第5章 數據讀取與保存  63
    5.1 動(dòng)機  63
    5.2 文件格式  64
    5.2.1 文本文件  64
    5.2.2 JSON  66
    5.2.3 逗號分隔值與制表符分隔值  68
    5.2.4 SequenceFile  71
    5.2.5 對象文件  73
    5.2.6 Hadoop輸入輸出格式  73
    5.2.7 文件壓縮  77
    5.3 文件系統  78
    5.3.1 本地/“常規”文件系統  78
    5.3.2 Amazon S3  78
    5.3.3 HDFS  79
    5.4 Spark SQL中的結構化數據  79
    5.4.1 Apache Hive  80
    5.4.2 JSON  80
    5.5 數據庫  81
    5.5.1 Java數據庫連接  81
    5.5.2 Cassandra  82
    5.5.3 HBase  84
    5.5.4 Elasticsearch  85
    5.6 總結  86
    第6章 Spark編程進(jìn)階  87
    6.1 簡(jiǎn)介  87
    6.2 累加器  88
    6.2.1 累加器與容錯性  90
    6.2.2 自定義累加器  91
    6.3 廣播變量  91
    6.4 基于分區進(jìn)行操作  94
    6.5 與外部程序間的管道  96
    6.6 數值RDD 的操作  99
    6.7 總結  100
    第7章 在集群上運行Spark  101
    7.1 簡(jiǎn)介  101
    7.2 Spark運行時(shí)架構  101
    7.2.1 驅動(dòng)器節點(diǎn)  102
    7.2.2 執行器節點(diǎn)  103
    7.2.3 集群管理器  103
    7.2.4 啟動(dòng)一個(gè)程序  104
    7.2.5 小結  104
    7.3 使用spark-submit 部署應用  105
    7.4 打包代碼與依賴(lài)  107
    7.4.1 使用Maven構建的用Java編寫(xiě)的Spark應用  108
    7.4.2 使用sbt構建的用Scala編寫(xiě)的Spark應用  109
    7.4.3 依賴(lài)沖突   111
    7.5 Spark應用內與應用間調度  111
    7.6 集群管理器  112
    7.6.1 獨立集群管理器  112
    7.6.2 Hadoop YARN  115
    7.6.3 Apache Mesos  116
    7.6.4 Amazon EC2  117
    7.7 選擇合適的集群管理器  120
    7.8 總結  121
    第8章 Spark調優(yōu)與調試  123
    8.1 使用SparkConf配置Spark  123
    8.2 Spark執行的組成部分:作業(yè)、任務(wù)和步驟  127
    8.3 查找信息  131
    8.3.1 Spark網(wǎng)頁(yè)用戶(hù)界面  131
    8.3.2 驅動(dòng)器進(jìn)程和執行器進(jìn)程的日志  134
    8.4 關(guān)鍵性能考量  135
    8.4.1 并行度  135
    8.4.2 序列化格式  136
    8.4.3 內存管理  137
    8.4.4 硬件供給  138
    8.5 總結  139
    第9章 Spark SQL  141
    9.1 連接Spark SQL  142
    9.2 在應用中使用Spark SQL  144
    9.2.1 初始化Spark SQL  144
    9.2.2 基本查詢(xún)示例  145
    9.2.3 SchemaRDD  146
    9.2.4 緩存  148
    9.3 讀取和存儲數據  149
    9.3.1 Apache Hive  149
    9.3.2 Parquet  150
    9.3.3 JSON  150
    9.3.4 基于RDD  152
    9.4 JDBC/ODBC服務(wù)器  153
    9.4.1 使用Beeline  155
    9.4.2 長(cháng)生命周期的表與查詢(xún)  156
    9.5 用戶(hù)自定義函數  156
    9.5.1 Spark SQL UDF  156
    9.5.2 Hive UDF  157
    9.6 Spark SQL性能  158
    9.7 總結  159
    第10章 Spark Streaming  161
    10.1 一個(gè)簡(jiǎn)單的例子  162
    10.2 架構與抽象  164
    10.3 轉化操作  167
    10.3.1 無(wú)狀態(tài)轉化操作  167
    10.3.2 有狀態(tài)轉化操作  169
    10.4 輸出操作  173
    10.5 輸入源  175
    10.5.1 核心數據源  175
    10.5.2 附加數據源  176
    10.5.3 多數據源與集群規?! ?79
    10.6 24/7不間斷運行  180
    10.6.1 檢查點(diǎn)機制  180
    10.6.2 驅動(dòng)器程序容錯  181
    10.6.3 工作節點(diǎn)容錯  182
    10.6.4 接收器容錯  182
    10.6.5 處理保證  183
    10.7 Streaming用戶(hù)界面  183
    10.8 性能考量  184
    10.8.1 批次和窗口大小  184
    10.8.2 并行度  184
    10.8.3 垃圾回收和內存使用  185
    10.9 總結  185
    第11章 基于MLlib的機器學(xué)習  187
    11.1 概述  187
    11.2 系統要求  188
    11.3 機器學(xué)習基礎  189
    11.4 數據類(lèi)型  192
    11.5 算法  194
    11.5.1 特征提取  194
    11.5.2 統計  196
    11.5.3 分類(lèi)與回歸  197
    11.5.4 聚類(lèi)  202
    11.5.5 協(xié)同過(guò)濾與推薦  203
    11.5.6 降維  204
    11.5.7 模型評估  206
    11.6 一些提示與性能考量  206
    11.6.1 準備特征  206
    11.6.2 配置算法  207
    11.6.3 緩存RDD以重復使用  207
    11.6.4 識別稀疏程度  207
    11.6.5 并行度  207
    11.7 流水線(xiàn)API  208
    11.8 總結  209
    作者簡(jiǎn)介  210
    封面介紹  210
    熱門(mén)推薦文章
    相關(guān)優(yōu)評榜
    品類(lèi)齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價(jià),暢選無(wú)憂(yōu)
    購物指南
    購物流程
    會(huì )員介紹
    生活旅行/團購
    常見(jiàn)問(wèn)題
    大家電
    聯(lián)系客服
    配送方式
    上門(mén)自提
    211限時(shí)達
    配送服務(wù)查詢(xún)
    配送費收取標準
    海外配送
    支付方式
    貨到付款
    在線(xiàn)支付
    分期付款
    郵局匯款
    公司轉賬
    售后服務(wù)
    售后政策
    價(jià)格保護
    退款說(shuō)明
    返修/退換貨
    取消訂單
    特色服務(wù)
    奪寶島
    DIY裝機
    延保服務(wù)
    京東E卡
    京東通信
    京東JD+
    亚洲精品乱码久久久97_国产伦子一区二区三区_久久99精品久久久欧美_天天看片永久av影城网页
  • <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>