《基于Python的大數據分析基礎及實(shí)戰》是一本介紹如何用Python 3.6進(jìn)行數據處理和分析的學(xué)習指南。其主要內容包括:Python語(yǔ)言基礎、數據處理、數據分析、數據可視化,以及利用Python對數據庫的操作、自建Python應用庫的共享發(fā)布等。
《基于Python的大數據分析基礎及實(shí)戰》分3個(gè)部分:第1部分為基礎知識,第2部分為實(shí)戰案例,第3部分為拓展與延伸。本書(shū)內容豐富,講解通俗易懂,非常適合本科生、研究生,以及對Python語(yǔ)言感興趣或者想要使用Python語(yǔ)言進(jìn)行數據分析的廣大讀者。
余本國,博士,碩士研究生導師。于中北大學(xué)理學(xué)系任教,主講線(xiàn)性代數、微積分、Python語(yǔ)言、大數據分析基礎等課程。2012年到加拿大York University做訪(fǎng)問(wèn)學(xué)者。出版有《Python數據分析基礎》等著(zhù)作。
第1部分 基 礎 篇
第1章
Python語(yǔ)言基礎 /2
1.0 引子 /2
1.1 工欲善其事,必先利其器(安裝Python) /3
1.2 學(xué)跑得先學(xué)走(語(yǔ)法基礎) /9
1.3 程序結構 /11
1.3.1 Hello World ! /11
1.3.2 運算符介紹 /12
1.3.3 順序結構 /14
1.3.4 判斷結構 /17
1.3.5 循環(huán)結構 /18
1.3.6 異常 /20
1.4 函數 /24
1.4.1 基本函數結構 /24
1.4.2 參數結構 /25
1.4.3 回調函數 /28
1.4.4 函數的遞歸與嵌套 /28
1.4.5 閉包 /31
1.4.6 匿名函數lambda /32
1.4.7 關(guān)鍵字yield /32
1.5 數據結構 /35
1.5.1 列表(list) /35
1.5.2 元組(tuple) /38
1.5.3 集合(set) /39
1.5.4 字典(dict) /40
1.5.5 集合的操作 /41
1.5.6 學(xué)以致用 /45
1.6 3個(gè)函數(map、filter、reduce) /47
1.6.1 遍歷函數(map) /47
1.6.2 篩選函數(filter) /48
1.6.3 累計函數(reduce) /48
1.7 面向對象編程基礎 /50
1.7.1 類(lèi) /50
1.7.2 類(lèi)和實(shí)例 /51
1.7.3 數據封裝 /52
1.7.4 私有變量與私有方法 /53
本章小結 /54
第2章
數據處理 /60
2.1 Anaconda簡(jiǎn)介 /60
2.2 Numpy簡(jiǎn)介 /66
2.3 關(guān)于Pandas /68
2.3.1 什么是Pandas /68
2.3.2 Pandas中的數據結構 /68
2.4 數據準備 /68
2.4.1 數據類(lèi)型 /68
2.4.2 數據結構 /69
2.4.3 數據導入 /79
2.4.4 數據導出 /86
2.5 數據處理 /88
2.5.1 數據清洗 /89
2.5.2 數據抽取 /97
2.5.3 插入記錄 /114
2.5.4 修改記錄 /117
2.5.5 交換行或列 /120
2.5.6 排名索引 /122
2.5.7 數據合并 /131
2.5.8 數據計算 /137
2.5.9 數據分組 /141
2.5.10 日期處理 /143
帶你飛(數據處理案例) /148
本章小結 /160
第3章
數據分析 /165
3.1 基本統計分析 /165
3.2 分組分析 /169
3.3 分布分析 /171
3.4 交叉分析 /173
3.5 結構分析 /174
3.6 相關(guān)分析 /176
小試牛刀(相關(guān)分析案例:電商數據分析) /178
本章小結 /180
第4章
數據可視化 /181
4.1 使用Python對數據進(jìn)行可視化處理 /181
4.1.1 準備工作 /181
4.1.2 Matplotlib繪圖示例 /186
4.1.3 Seabon中的圖例 /198
4.1.4 pandas的一些可視化功能 /212
4.1.5 文本數據可視化 /217
4.1.6 networkx網(wǎng)絡(luò )圖 /218
4.1.7 folium繪制地圖 /220
4.2 Python圖像處理基礎 /221
4.2.1 PIL圖庫 /221
4.2.2 OpenCV圖庫 /224
本章小結 /226
第5章
字符串處理與網(wǎng)絡(luò )爬蟲(chóng) /228
5.1 字符串處理 /228
5.1.1 字符串處理函數 /228
5.1.2 正則表達式 /230
5.1.3 編碼處理 /237
5.2 網(wǎng)絡(luò )爬蟲(chóng) /240
5.2.1 獲取網(wǎng)頁(yè)源碼 /240
5.2.2 從源碼中提取信息 /241
5.2.3 數據存儲 /246
5.2.4 網(wǎng)絡(luò )爬蟲(chóng)從這里開(kāi)始 /248
本章小結 /260
第2部分 實(shí)戰案例篇
第6章
詞云 /262
6.1 安裝文件包 /263
6.2 jieba功能用法 /264
6.2.1 cut用法 /264
6.2.2 詞頻與分詞字典 /265
6.3 文本詞云圖 /269
6.4 背景輪廓詞云圖的制作 /271
6.4.1 數據準備 /271
6.4.2 分詞 /272
6.4.3 構建詞云 /273
本章小結 /278
第7章
航空客戶(hù)分類(lèi) /279
7.1 問(wèn)題的提出 /279
7.2 聚類(lèi)分析相關(guān)概念 /280
7.3 模型的建立 /281
7.4 Python實(shí)現代碼 /281
7.5 分類(lèi)結果展示與分析 /284
本章小結 /287
第8章
《紅樓夢(mèng)》文本分析 /288
8.1 準備工作 /289
8.2 分詞 /291
8.2.1 讀取數據 /291
8.2.2 數據預處理 /293
8.2.3 對紅樓夢(mèng)進(jìn)行分詞 /301
8.2.4 制作詞云 /303
8.3 文本聚類(lèi)分析 /312
8.3.1 構建分詞TF-IDF矩陣 /312
8.3.2 使用TF-IDF矩陣對章節進(jìn)行聚類(lèi) /314
8.4 LDA主題模型 /322
8.5 人物社交網(wǎng)絡(luò )分析 /328
本章小結 /334
第3部分 拓展與延伸
第9章
Python字符串格式化 /336
9.1 使用%符號進(jìn)行格式化 /336
9.2 使用format()方法進(jìn)行格式化 /339
9.3 使用f方法進(jìn)行格式化 /341
本章小結 /342
第10章
在Python中操作MySQL數據庫 /343
10.1 對MySQL的連接與訪(fǎng)問(wèn) /344
10.2 對MySQL的增、刪、改、查操作 /345
10.2.1 查詢(xún)操作 /345
10.2.2 插入操作 /346
10.2.3 更新操作 /347
10.2.4 刪除操作 /347
10.3 創(chuàng )建數據庫表 /348
本章小結 /349
第11章
fractal(分形)庫的發(fā)布 /350
11.1 用Python繪制分形 /351
11.1.1 分形簡(jiǎn)介 /351
11.1.2 先睹為快 /351
11.1.3 繪制方法簡(jiǎn)介 /352
11.2 第三方庫發(fā)布到PyPi /364
本章小結 /369
參考文獻 /370