本書(shū)重點(diǎn)介紹Python語(yǔ)言在數據處理與數據挖掘方面的應用技巧,主要包括數據分析基礎知識(數據收集與分析軟件、數據挖掘的分析基礎、簡(jiǎn)單數據的統計分析),數據分析高級方法(多元數據的綜合分析、時(shí)序數據的模型分析),大數據基本處理方法(大數據分析基礎應用、文獻計量與科研評價(jià)、社會(huì )網(wǎng)絡(luò )分析方法、數據分析編程平臺)等內容。附錄中還提供了Python數據分析相關(guān)方法和函數等,方便讀者隨時(shí)查看。本書(shū)內容豐富,圖文并茂,可操作性強且便于查閱,主要面向數據分析的讀者,能有效幫助讀者提高數據處理與分析的水平,提升工作效率。書(shū)中的例子數據、習題數據及相關(guān)代碼都可在作者的學(xué)習博客http://blog.leanote.com/DaPy下載使用,也可登錄華信教育資源網(wǎng)http://www.hxedu.com.cn免費下載。 本書(shū)適合各層次的數據分析用戶(hù),既可作為初學(xué)者的入門(mén)指南,又可作為中高級用戶(hù)的參考手冊,同時(shí)也可作為各大中專(zhuān)院校和培訓班的數據分析教材。
暨南大學(xué)教授,中國統計學(xué)會(huì )會(huì )員,廣東省統計學(xué)會(huì )常務(wù)理事,暨南大學(xué)統計學(xué)專(zhuān)業(yè)博士生導師。著(zhù)有多部統計學(xué)教材或專(zhuān)著(zhù)。
目 錄
第一部分 數據分析基礎知識
第1章 數據收集與分析軟件 2
1.1 數據收集過(guò)程 2
1.1.1 數據的類(lèi)型 2
1.1.2 數據的收集 3
1.1.3 數據的管理 8
1.2 數據分析軟件 9
1.2.1 數據分析軟件簡(jiǎn)介 9
1.2.2 Python語(yǔ)言介紹 10
1.2.3 Python在線(xiàn)平臺 13
1.3 Python編程基礎 18
1.3.1 Python編程入門(mén) 18
1.3.2 Python數據類(lèi)型 20
1.3.3 數值分析包numpy 24
1.3.4 數據分析包pandas 25
1.3.5 Python編程運算 34
數據及練習1 38
第2章 數據挖掘的分析基礎 41
2.1 數據的描述分析 41
2.1.1 基本統計量 41
2.1.2 基本繪圖函數 46
2.2 數據的透視分析 55
2.2.1 一維頻數分析 56
2.2.2 二維集聚分析 57
2.2.3 多維透視分析 60
數據及練習2 62
第3章 簡(jiǎn)單數據的統計分析 64
3.1 隨機變量及其分布 64
3.1.1 均勻分布 64
3.1.2 正態(tài)分布 65
3.2 隨機模擬及其應用 67
3.2.1 隨機模擬方法 67
3.2.2 模擬大數定律 68
3.2.3 模擬方法求積分 69
3.3 單變量統計分析模型 70
3.3.1 單變量線(xiàn)性相關(guān)模型 71
3.3.2 單變量線(xiàn)性回歸模型 73
數據及練習3 75
第二部分 數據分析高級方法
第4章 多元數據的綜合分析 78
4.1 多元線(xiàn)性相關(guān)與回歸 79
4.1.1 多元線(xiàn)性相關(guān) 79
4.1.2 多元線(xiàn)性回歸模型 81
4.2 綜合評價(jià)方法 91
4.2.1 綜合評價(jià)指標體系 91
4.2.2 綜合評價(jià)分析方法 93
4.3 數據壓縮方法 99
4.3.1 主成分分析的基本思想 99
4.3.2 主成分的基本分析 101
4.4 聚類(lèi)分析方法 105
4.4.1 聚類(lèi)分析的概念 105
4.4.2 系統聚類(lèi)方法 108
數據與練習4 113
第5章 時(shí)序數據的模型分析 116
5.1 時(shí)間序列簡(jiǎn)介 116
5.1.1 時(shí)間序列的概念 116
5.1.2 時(shí)間序列的模擬 116
5.1.3 時(shí)間序列的讀取 118
5.2 時(shí)間序列分析模型 119
5.2.1 AR模型 120
5.2.2 MR模型 120
5.2.3 ARMA模型 121
5.2.4 ARIMA模型 122
5.3 ARMA模型的構建 124
5.3.1 序列的相關(guān)性檢驗 124
5.3.2 ARMA模型的建立與檢驗 127
5.3.3 序列的平穩性檢驗 131
5.4 股票指數預測模型的構建 133
5.4.1 模型的預處理 134
5.4.2 參數的估計與檢驗 135
5.4.3 模型的預測 136
數據與練習5 137
第三部分 大數據基本處理方法
第6章 大數據分析基礎應用 140
6.1 大數據的概念 140
6.1.1 大數據的含義 140
6.1.2 大數據應用舉例 141
6.1.3 大數據分析方法 142
6.2 Python文本預處理 144
6.2.1 字符串的基本操作 144
6.2.2 字符串查詢(xún)與替換 146
6.3 網(wǎng)絡(luò )爬蟲(chóng)及應用 146
6.3.1 網(wǎng)頁(yè)的基礎知識 147
6.3.2 Python爬蟲(chóng)步驟 148
6.3.3 爬蟲(chóng)方法的應用 149
6.4 數據庫技術(shù)及應用 154
6.4.1 Python中數據庫的使用 154
6.4.2 數據庫的建立與使用 155
數據及練習6 156
第7章 文獻計量與科研評價(jià) 159
7.1 文獻計量研究的框架 159
7.2 文獻數據的獲取與分析 161
7.2.1 文獻數據的獲取 161
7.2.2 文獻數據的分析 163
7.3 科研數據的管理與評價(jià) 166
7.3.1 科研單位與項目分析 167
7.3.2 科研期刊與作者分析 169
數據及練習7 171
第8章 社會(huì )網(wǎng)絡(luò )分析方法 172
8.1 社會(huì )網(wǎng)絡(luò )的初步印象 172
8.1.1 社會(huì )網(wǎng)絡(luò )分析概念 172
8.1.2 社會(huì )網(wǎng)絡(luò )分析包 174
8.2 社會(huì )網(wǎng)絡(luò )圖的構建 174
8.2.1 社會(huì )網(wǎng)絡(luò )數據形式 174
8.2.2 社會(huì )網(wǎng)絡(luò )統計量 177
8.2.3 網(wǎng)絡(luò )圖之知識圖譜 180
數據及練習8 183
第9章 數據分析編程平臺 185
9.1 Anaconda科學(xué)計算發(fā)行包 185
9.1.1 Anaconda下載與安裝 185
9.1.2 Anaconda啟動(dòng)與運行 186
9.2 Jupyter編輯平臺 188
9.2.1 Jupyter Notebook 188
9.2.2 Jupyter Lab 193
9.2.3 在Jupyter中使用R語(yǔ)言 196
9.3 Spyder分析平臺 197
9.3.1 Spyder平臺簡(jiǎn)介 197
9.3.2 Spyder平臺使用 198
附錄A 本書(shū)的學(xué)習網(wǎng)站 200
附錄B 書(shū)中的例子數據 201
附錄C 書(shū)中自定義函數 202
參考文獻 205