• <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>
    當前位置 : 首頁(yè)  圖書(shū) 正文

    Spark大數據分析:核心概念、技術(shù)及實(shí)踐簡(jiǎn)介,目錄書(shū)摘

    2020-04-26 10:26 來(lái)源:京東 作者:京東
    spark大數據分析
    Spark大數據分析:核心概念、技術(shù)及實(shí)踐
    暫無(wú)報價(jià)
    300+評論 99%好評
    編輯推薦:
    內容簡(jiǎn)介:

       本書(shū)是關(guān)于大數據和Spark的一個(gè)簡(jiǎn)明手冊。它將助你學(xué)習如何用Spark來(lái)完成很多大數據分析任務(wù),其中覆蓋了高效利用Spark所需要知道的重要主題:如何使用SparkShell進(jìn)行交互式數據分析、如何編寫(xiě)Spark應用、如何在Spark中對大規模數據進(jìn)行交互分析、如何使用SparkStreaming處理高速數據流、如何使用Spark進(jìn)行機器學(xué)習、如何使用Spark進(jìn)行圖處理、如何使用集群管理員部署Spark、如何監控Spark應用等。本書(shū)還對其他配合Spark一起使用的大數據技術(shù)進(jìn)行了介紹,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本書(shū)也對機器學(xué)習和圖的概念進(jìn)行了介紹。

    作者簡(jiǎn)介:
    目錄:Contents 目  錄
    譯者序
    前言
    致謝
    第1章 大數據技術(shù)一覽1
    1.1 Hadoop2
    1.1.1 HDFS3
    1.1.2 MapReduce5
    1.1.3 Hive5
    1.2 數據序列化6
    1.2.1 Avro6
    1.2.2 Thrift6
    1.2.3 Protocol Buffers7
    1.2.4 SequenceFile7
    1.3 列存儲7
    1.3.1 RCFile8
    1.3.2 ORC8
    1.3.3 Parquet9
    1.4 消息系統9
    1.4.1 Kafka10
    1.4.2 ZeroMQ11
    1.5 NoSQL12
    1.5.1 Cassandra13
    1.5.2 HBase13
    1.6 分布式SQL查詢(xún)引擎14
    1.6.1 Impala14
    1.6.2 Presto14
    1.6.3 Apache Drill15
    1.7 總結15
    第2章 Scala編程16
    2.1 函數式編程16
    2.1.1 函數17
    2.1.2 不可變數據結構18
    2.1.3 一切皆表達式19
    2.2 Scala基礎19
    2.2.1 起步20
    2.2.2 基礎類(lèi)型20
    2.2.3 變量21
    2.2.4 函數21
    2.2.5 類(lèi)24
    2.2.6 單例24
    2.2.7 樣本類(lèi)25
    2.2.8 模式匹配25
    2.2.9 操作符26
    2.2.10 特質(zhì)26
    2.2.11 元組27
    2.2.12 Option類(lèi)型27
    2.2.13 集合28
    2.3 一個(gè)單獨的Scala應用程序32
    2.4 總結32
    第3章 Spark Core33
    3.1 概述33
    3.1.1 主要特點(diǎn)33
    3.1.2 理想的應用程序36
    3.2 總體架構37
    3.2.1 worker37
    3.2.2 集群管理員38
    3.2.3 驅動(dòng)程序38
    3.2.4 執行者38
    3.2.5 任務(wù)38
    3.3 應用運行38
    3.3.1 術(shù)語(yǔ)38
    3.3.2 應用運行過(guò)程39
    3.4 數據源39
    3.5 API40
    3.5.1 SparkContext40
    3.5.2 RDD41
    3.5.3 創(chuàng )建RDD42
    3.5.4 RDD操作43
    3.5.5 保存RDD52
    3.6 惰性操作53
    3.7 緩存54
    3.7.1 RDD的緩存方法55
    3.7.2 RDD緩存是可容錯的56
    3.7.3 緩存內存管理56
    3.8 Spark作業(yè)56
    3.9 共享變量57
    3.9.1 廣播變量57
    3.9.2 累加器58
    3.10 總結59
    第4章 使用Spark shell進(jìn)行交互式數據分析60
    4.1 起步60
    4.1.1 下載60
    4.1.2 解壓61
    4.1.3 運行61
    4.2 REPL命令62
    4.3 把Spark shell當成Scala shell使用62
    4.4 數值分析63
    4.5 日志分析64
    4.6 總結68
    第5章 編寫(xiě)Spark應用69
    5.1 Spark中的Hello World69
    5.2 編譯并運行應用72
    5.2.1 sbt72
    5.2.2 編譯代碼73
    5.2.3 運行應用73
    5.3 監控應用75
    5.4 調試應用75
    5.5 總結76
    第6章 Spark Streaming77
    6.1 Spark Streaming簡(jiǎn)介78
    6.1.1 Spark Streaming是一個(gè)Spark類(lèi)庫78
    6.1.2 總體架構78
    6.1.3 數據流來(lái)源78
    6.1.4 接收器79
    6.1.5 目的地79
    6.2 API79
    6.2.1 StreamingContext80
    6.2.2 Spark Streaming應用基本結構82
    6.2.3 DStream82
    6.2.4 創(chuàng )建DStream83
    6.2.5 處理數據流84
    6.2.6 輸出操作88
    6.2.7 窗口操作91
    6.3 一個(gè)完整的Spark Streaming應用93
    6.4 總結98
    第7章 Spark SQL99
    7.1 Spark SQL簡(jiǎn)介99
    7.1.1 和其他Spark庫集成100
    7.1.2 可用性100
    7.1.3 數據源100
    7.1.4 數據處理接口100
    7.1.5 與Hive的互操作性101
    7.2 性能101
    7.2.1 磁盤(pán)I/O101
    7.2.2 分區102
    7.2.3 列存儲102
    7.2.4 內存中的列式緩存102
    7.2.5 行跳過(guò)102
    7.2.6 謂詞下推102
    7.2.7 查詢(xún)優(yōu)化103
    7.3 應用104
    7.3.1 ETL104
    7.3.2 數據可視化104
    7.3.3 分布式JDBC/ODBC SQL查詢(xún)引擎105
    7.3.4 數據倉庫105
    7.4 API106
    7.4.1 關(guān)鍵抽象106
    7.4.2 創(chuàng )建DataFrame109
    7.4.3 在程序中使用SQL/HiveQL處理數據114
    7.4.4 使用DataFrame API處理數據115
    7.4.5 保存DataFrame131
    7.5 內置函數133
    7.5.1 聚合操作134
    7.5.2 集合操作134
    7.5.3 日期/時(shí)間134
    7.5.4 數學(xué)135
    7.5.5 字符串135
    7.5.6 窗口135
    7.6 UDF和UDAF135
    7.7 一個(gè)交互式分析的例子135
    7.8 使用Spark SQL JDBC服務(wù)器進(jìn)行交互式分析142
    7.9 總結145
    第8章 使用Spark進(jìn)行機器學(xué)習146
    8.1 機器學(xué)習簡(jiǎn)介146
    8.1.1 特征147
    8.1.2 標簽147
    8.1.3 模型148
    8.1.4 訓練數據148
    8.1.5 測試數據149
    8.1.6 機器學(xué)習應用149
    8.1.7 機器學(xué)習算法151
    8.1.8 超參數160
    8.1.9 模型評價(jià)160
    8.1.10 機器學(xué)習的主要步驟162
    8.2 Spark機器學(xué)習庫162
    8.3 MLlib概覽163
    8.3.1 與其他Spark庫集成163
    8.3.2 統計工具163
    8.3.3 機器學(xué)習算法163
    8.4 MLlib API164
    8.4.1 數據類(lèi)型164
    8.4.2 算法和模型166
    8.4.3 模型評價(jià)181
    8.5 MLlib示例應用184
    8.5.1 數據集184
    8.5.2 目標184
    8.5.3 代碼184
    8.6 Spark ML186
    8.6.1 ML數據集187
    8.6.2 Transformer187
    8.6.3 Estimator187
    8.6.4 Pipeline188
    8.6.5 PipelineModel188
    8.6.6 Evaluator188
    8.6.7 網(wǎng)格搜索189
    8.6.8 CrossValidator189
    8.7 Spark ML示例應用189
    8.7.1 數據集190
    8.7.2 目標190
    8.7.3 代碼190
    8.8 總結195
    第9章 使用Spark進(jìn)行圖處理196
    9.1 圖簡(jiǎn)介196
    9.1.1 無(wú)向圖197
    9.1.2 有向圖197
    9.1.3 有向多邊圖197
    9.1.4 屬性圖197
    9.2 GraphX簡(jiǎn)介198
    9.3 GraphX API199
    9.3.1 數據抽象199
    9.3.2 創(chuàng )建圖200
    9.3.3 圖屬性202
    9.3.4 圖操作符204
    9.4 總結217
    第10章 集群管理員218
    熱門(mén)推薦文章
    相關(guān)優(yōu)評榜
    品類(lèi)齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價(jià),暢選無(wú)憂(yōu)
    購物指南
    購物流程
    會(huì )員介紹
    生活旅行/團購
    常見(jiàn)問(wèn)題
    大家電
    聯(lián)系客服
    配送方式
    上門(mén)自提
    211限時(shí)達
    配送服務(wù)查詢(xún)
    配送費收取標準
    海外配送
    支付方式
    貨到付款
    在線(xiàn)支付
    分期付款
    郵局匯款
    公司轉賬
    售后服務(wù)
    售后政策
    價(jià)格保護
    退款說(shuō)明
    返修/退換貨
    取消訂單
    特色服務(wù)
    奪寶島
    DIY裝機
    延保服務(wù)
    京東E卡
    京東通信
    京東JD+
    亚洲精品乱码久久久97_国产伦子一区二区三区_久久99精品久久久欧美_天天看片永久av影城网页
  • <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>