市面上N0.1本關(guān)于Hadoop與Spark大數據處理技巧的教程,提供了豐富的算法和工具。
《數據算法:Hadoop/Spark大數據處理技巧》介紹了很多基本設計模式、優(yōu)化技術(shù)和數據挖掘及機器學(xué)習解決方案,以解決生物信息學(xué)、基因組學(xué)、統計和社交網(wǎng)絡(luò )分析等領(lǐng)域的很多問(wèn)題。這還概要介紹了MapReduce、Hadoop和Spark。
主要內容包括:
■ 完成超大量交易的購物籃分析。
■ 數據挖掘算法(K-均值、KNN和樸素貝葉斯)。
■ 使用超大基因組數據完成DNA和RNA測序。
■ 樸素貝葉斯定理和馬爾可夫鏈實(shí)現數據和市場(chǎng)預測。
■ 推薦算法和成對文檔相似性。
■ 線(xiàn)性回歸、Cox回歸和皮爾遜(Pearson)相關(guān)分析。
■ 等位基因頻率和DNA挖掘。
■ 社交網(wǎng)絡(luò )分析(推薦系統、三角形計數和情感分析)。
Mahmoud Parsian,計算機科學(xué)博士,是一位熱衷于實(shí)踐的軟件專(zhuān)家,作為開(kāi)發(fā)人員、設計人員、架構師和作者,他有30多年的軟件開(kāi)發(fā)經(jīng)驗。目前領(lǐng)導著(zhù)Illumina的大數據團隊,在過(guò)去15年間,他主要從事Java (服務(wù)器端)、數據庫、MapReduce和分布式計算的有關(guān)工作。Mahmoud還著(zhù)有《JDBC Recipes》和《JDBC Metadata, MySQL,and Oracle Recipes》等書(shū)(均由Apress出版)。