• <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>
    當前位置 : 首頁(yè)  圖書(shū) 正文

    Python網(wǎng)絡(luò )爬蟲(chóng)從入門(mén)到實(shí)踐簡(jiǎn)介,目錄書(shū)摘

    2020-06-05 11:20 來(lái)源:京東 作者:京東
    python從入門(mén)到實(shí)踐
    Python網(wǎng)絡(luò )爬蟲(chóng)從入門(mén)到實(shí)踐
    暫無(wú)報價(jià)
    40+評論 100%好評
    編輯推薦:
    內容簡(jiǎn)介:

    本書(shū)講解了如何使用Python編寫(xiě)網(wǎng)絡(luò )爬蟲(chóng),涵蓋爬蟲(chóng)的概念、Web基礎、Chrome、Charles和Packet Capture抓包、urllib、Requests請求庫、lxml、Beautiful Soup、正則表達式解析數據、CSV、Excel、MySQL、Redis、MongoDB保存數據、反爬蟲(chóng)策略應對、爬蟲(chóng)框架Scrapy的使用與部署,以及應用案例。本書(shū)結構清晰、內容精練,代碼示例典型實(shí)用,附帶實(shí)踐過(guò)程中遇到問(wèn)題的解決方案,非常適合Python初學(xué)者和進(jìn)階讀者閱讀。

    作者簡(jiǎn)介:

    莊培杰,CSDN博客專(zhuān)家,排名146,訪(fǎng)問(wèn)量達1625W+,簡(jiǎn)書(shū)程序員專(zhuān)欄優(yōu)秀作者。從事編程開(kāi)發(fā)10余年,熟悉Python的方方面面,尤其擅長(cháng)Python爬蟲(chóng)和數據分析?,F任思可教育投資開(kāi)發(fā)(深圳)有限公司Python高級工程師工程師。

    目錄:

    目    錄
    第1章  Python爬蟲(chóng)概念與Web基礎 1
    1.1  爬蟲(chóng)概念 1
    1.1.1  什么是爬蟲(chóng) 1
    1.1.2  爬蟲(chóng)使用場(chǎng)景的引入 2
    1.1.3  爬蟲(chóng)的組成部分 3
    1.1.4  模擬請求 3
    1.1.5  數據解析 4
    1.1.6  數據保存 5
    1.1.7  爬蟲(chóng)的學(xué)習路線(xiàn) 5
    1.2  HTTP簡(jiǎn)述 6
    1.2.1  簡(jiǎn)述一次網(wǎng)絡(luò )請求過(guò)程 6
    1.2.2  URI和URL 7
    1.2.3  HTTP請求報文 8
    1.2.4  HTTP響應報文 10
    1.3  網(wǎng)頁(yè)的組成 13
    1.3.1  HTML簡(jiǎn)介 13
    1.3.2  CSS選擇器簡(jiǎn)介 16
    1.3.3  JavaScript簡(jiǎn)介 17
    第2章  Python爬蟲(chóng)基本庫的使用 18
    2.1  Chrome抓包詳解 18
    2.1.1  Controls 20
    2.1.2  Filter 21
    2.1.3  Request Table 21
    2.2  urllib庫詳解 23
    2.2.1  發(fā)送請求 23
    2.2.2  抓取二進(jìn)制文件 24
    2.2.3  模擬GET和POST請求 25
    2.2.4  修改請求頭 26
    2.2.5  設置連接超時(shí) 27
    2.2.6  延遲提交數據 27
    2.2.7  設置代理 27
    2.2.8  Cookie 28
    2.2.9  urllib.parse模塊 29
    2.2.10  urllib.error異常處理模塊 31
    2.2.11  urllib.robotparser模塊 32
    2.3  用lxml庫解析網(wǎng)頁(yè)節點(diǎn) 34
    2.3.1  安裝庫 34
    2.3.2  XPath語(yǔ)法速成 34
    2.4  實(shí)戰:爬取小說(shuō)《三國演義》 36
    第3章  Python爬蟲(chóng)抓包與數據解析 41
    3.1  抓包進(jìn)階 41
    3.1.1  HTTPS介紹 42
    3.1.2  HTTPS的工作流程 43
    3.1.3  Charles抓包 43
    3.1.4  Packet Capture抓包 49
    3.2  Requests HTTP請求庫 52
    3.2.1  Requests庫簡(jiǎn)介 53
    3.2.2  Requests HTTP基本請求 53
    3.2.3  Requests 請求常用設置 54
    3.2.4  Requests 處理返回結果 54
    3.2.5  Requests 處理Cookie 55
    3.2.6  Requests重定向與請求歷史 55
    3.2.7  Requests 錯誤與異常處理 55
    3.2.8  Requests Session會(huì )話(huà)對象 55
    3.2.9  Requests SSL證書(shū)驗證 56
    3.3  實(shí)戰:爬取微信文章中的圖片、音頻和視頻 56
    3.3.1  爬取標題 56
    3.3.2  爬取圖片 57
    3.3.3  爬取音頻 58
    3.3.4  爬取視頻 60
    3.3.5  代碼整理 64
    3.4  Beautiful Soup解析庫 67
    3.4.1  Beautiful Soup簡(jiǎn)介 67
    3.4.2  Beautiful Soup對象實(shí)例化 67
    3.4.3  Beautiful Soup的四大對象 68
    3.4.4  Beautiful Soup的各種節點(diǎn) 69
    3.4.5  Beautiful Soup文檔樹(shù)搜索 69
    3.4.6  Beautiful Soup 使用CSS選擇器 70
    3.5  實(shí)戰:爬取壁紙站點(diǎn)的壁紙 70
    3.6  正則表達式 74
    3.6.1  re模塊 74
    3.6.2  正則規則詳解 75
    3.6.3  正則練習 77
    3.7  實(shí)戰:爬取市級編碼列表 79
    3.7.1  獲取所有市級的跳轉鏈接列表 80
    3.7.2  解析表格獲得所有市級天氣鏈接 81
    3.7.3  提取市級編碼 82
    3.7.4  整合調整代碼 83
    第4章  用CSV和Excel存儲數據 85
    4.1  用CSV文件存儲數據 85
    4.1.1  CSV寫(xiě)入 86
    4.1.2  CSV讀取 87
    4.2  實(shí)戰:爬取星座運勢 88
    4.3  用Excel文件存儲數據 89
    4.3.1  Excel寫(xiě)入 89
    4.3.2  Excel讀取 90
    4.4  實(shí)戰:爬取某音樂(lè )平臺排行榜 91
    第5章  用數據庫存儲數據 99
    5.1  MySQL數據庫 99
    5.1.1  安裝MySQL 100
    5.1.2  在Windows環(huán)境下安裝MySQL 100
    5.1.3  在Windows環(huán)境下配置MYSQL_HOME環(huán)境變量 101
    5.1.4  在Windows環(huán)境下設置MySQL登錄密碼 101
    5.1.5  在Windows環(huán)境下啟動(dòng)或關(guān)閉MySQL服務(wù) 102
    5.1.6  Mac環(huán)境 103
    5.1.7  Ubuntu環(huán)境 103
    5.1.8  MySQL的基本操作 104
    5.1.9  MySQL數據庫語(yǔ)法速成 106
    5.1.10  Python連接MySQL數據庫 110
    5.1.11  MySQL特殊符號和表情問(wèn)題 114
    5.1.12  實(shí)戰:抓取某技術(shù)網(wǎng)站數據 115
    5.2  數據庫可視化工具DataGrip 122
    5.2.1  建立數據庫關(guān)聯(lián) 122
    5.2.2  編寫(xiě)SQL語(yǔ)句 123
    5.2.3  常見(jiàn)問(wèn)題:連接遠程主機 124
    5.3  Redis數據庫 125
    5.3.1  安裝Redis 126
    5.3.2  redis-py庫的安裝 130
    5.3.3  redis-py基本操作示例 130
    5.3.4  實(shí)戰:爬取視頻彈幕并保存到Redis 134
    5.4  MongoDB數據庫 137
    5.4.1  安裝MongoDB 137
    5.4.2  安裝PyMongo庫 140
    5.4.3  PyMongo基本操作示例 140
    5.4.4  實(shí)戰:爬取某電商網(wǎng)站關(guān)鍵字搜索結果并保存到MongoDB 144
    第6章  Python應對反爬蟲(chóng)策略 148
    6.1  反爬蟲(chóng)概述 148
    6.1.1  為什么會(huì )出現反爬蟲(chóng) 149
    6.1.2  常見(jiàn)的爬蟲(chóng)與反爬蟲(chóng)大戰 149
    6.2  反爬蟲(chóng)策略 150
    6.2.1  User-Agent限制 150
    6.2.2  302重定向 151
    6.2.3  IP限制 151
    6.2.4  什么是網(wǎng)絡(luò )代理 151
    6.2.5  如何獲取代理IP 151
    6.2.6  ADSL撥號代理 152
    6.2.7  Squid 配置代理緩存服務(wù)器 156
    6.2.8  TinyProxy配置代理緩存服務(wù)器 158
    6.2.9  Cookie限制 159
    6.3  JavaScript反爬蟲(chóng)策略 159
    6.3.1  Ajax動(dòng)態(tài)加載數據 159
    6.3.2  實(shí)戰:爬取某素材網(wǎng)內容分析 159
    6.3.3  數據請求分析 160
    6.3.4  編寫(xiě)代碼 163
    6.4  Selenium模擬瀏覽器操作 166
    6.4.1  Selenium簡(jiǎn)介 166
    6.4.2  安裝Selenium 167
    6.4.3  Selenium常用函數 168
    6.5  實(shí)戰:爬取某網(wǎng)站的特定圖 172
    6.6  PhantomJS 175
    6.6.1  在Windows上安裝PhantomJS 175
    6.6.2  在Mac上安裝PhantomJS 175
    6.6.3  在Ubuntu上安裝PhantomJS 176
    6.6.4  關(guān)于PhantomJS的重要說(shuō)明 176
    6.7  常見(jiàn)驗證碼策略 176
    6.7.1  圖片驗證碼 177
    6.7.2  實(shí)戰:實(shí)現圖片驗證碼自動(dòng)登錄 178
    6.7.3  實(shí)戰:實(shí)現滑動(dòng)驗證碼自動(dòng)登錄 185
    第7章  Python爬蟲(chóng)框架Scrapy(上) 196
    7.1  Scrapy框架簡(jiǎn)介與安裝 197
    7.1.1  Scrapy相關(guān)信息 197
    7.1.2  Scrapy的安裝 197
    7.2  實(shí)戰:爬取某網(wǎng)站每日壁紙 199
    7.2.1  抓取目標分析 199
    7.2.2  創(chuàng )建爬蟲(chóng)腳本 201
    7.2.3  編寫(xiě)爬蟲(chóng)腳本 202
    7.2.4  運行爬蟲(chóng)腳本 203
    7.2.5  解析數據 203
    7.3  Scrapy架構簡(jiǎn)介 204
    7.3.1  Scrapy架構圖 204
    7.3.2  各個(gè)模塊間的協(xié)作流程 205
    7.3.3  協(xié)作流程擬人化對話(huà)版 206
    7.4  Spider詳解 207
    7.4.1  Spider的主要屬性和函數 207
    7.4.2  Spider運行流程 207
    7.5  Request類(lèi)和Response類(lèi) 209
    7.5.1  Request詳解 209
    7.5.2  Response類(lèi)常用參數、方法與子類(lèi) 210
    7.5.3  選擇器 211
    7.5.4  Scrapy Shell 212
    7.6  Item詳解 213
    7.7  Item Pipeline詳解 213
    7.7.1  自定義Item Pipeline類(lèi) 213
    7.7.2  啟用Item Pipeline 214
    7.8  實(shí)戰:完善爬取每日壁紙的腳本 214
    7.8.1  定義BingItem 215
    7.8.2  使用ImagesPipeline 215
    7.8.3  修改Spider代碼 216
    7.8.4  運行爬蟲(chóng)腳本 216
    7.9  設置請求頭 217
    7.9.1  構造Request時(shí)傳入 217
    7.9.2  修改settings.py文件 217
    7.9.3  為爬蟲(chóng)添加custom_settings字段 218
    7.10  下載中間件詳解 218
    7.10.1  自定義Downloader Middleware類(lèi) 218
    7.10.2  啟用自定義的代理下載中間件 219
    7.11  實(shí)戰:爬取某站點(diǎn)繪畫(huà)頻道的圖片 219
    7.11.1  分析爬取的站點(diǎn) 219
    7.11.2  新建項目與明確爬取目標 221
    7.11.3  創(chuàng )建爬蟲(chóng)爬取網(wǎng)頁(yè) 221
    7.11.4  設置代理 223
    7.11.5  解析數據 223
    7.11.6  存儲數據 224
    7.11.7  完善代碼 226
    第8章  Python爬蟲(chóng)框架Scrapy(下) 228
    8.1  Scrapy對接Selenium 228
    8.1.1  如何對接 228
    8.1.2  對接示例:爬取某網(wǎng)站首頁(yè)文章 229
    8.2  實(shí)戰:用Scrapy實(shí)現一個(gè)簡(jiǎn)單的代理池 232
    8.2.1  代理池的設計 232
    8.2.2  創(chuàng )建項目 232
    8.2.3  編寫(xiě)獲取IP的爬蟲(chóng) 233
    8.2.4  編寫(xiě)檢測IP的爬蟲(chóng) 238
    8.2.5  編寫(xiě)調度程序 240
    8.2.6  編寫(xiě)獲取代理IP的接口 241
    8.2.7  使用代理 243
    8.3  用Scrapyrt調度Scrapy 243
    8.3.1  相關(guān)文檔與安裝Scrapyrt 243
    8.3.2  Scrapyrt GET請求相關(guān)參數 244
    8.3.3  Scrapyrt POST請求相關(guān)參數 246
    8.4  用Docker部署Scrapy 246
    8.4.1  Docker簡(jiǎn)介 246
    8.4.2  下載并安裝Docker 247
    8.4.3  創(chuàng )建Dockerfile 249
    8.4.4  構建Docker鏡像 250
    8.4.5  把生成的Docker鏡像推送到Docker Hub 251
    8.4.6  在云服務(wù)器上運行Docker鏡像 253
    第9章  數據分析案例:Python崗位行情 254
    9.1  數據爬取 254
    9.2  NumPy庫和pandas庫 258
    9.2.1  ndarray數組 259
    9.2.2  ndarray數組的常用操作 260
    9.2.3  pandas庫 263
    9.3  用Matplotlib實(shí)現數據可視化 268
    9.3.1  Matplotlib中文亂碼問(wèn)題 269
    9.3.2  Matplotlib繪制顯示不全 270
    9.3.3  用Matplotlib生成圖表并進(jìn)行分析 271
    9.4  用Wordcloud庫進(jìn)行詞云繪制 275
    9.4.1  Wordcloud簡(jiǎn)介 275
    9.4.2  Wordcloud構造函數與常用方法 276
    9.4.3  詞云繪制 277
    9.5  小結 280
    第10章  數據分析案例:某婚戀網(wǎng)站交友情況分析 281
    10.1  數據爬取 281
    10.2  安裝Jupyter Notebook 287
    10.3  安裝pyecharts 288
    10.4  數據分析 289
    10.4.1  讀取CSV文件里的數據 289
    10.4.2  分析身高 290
    10.4.3  分析學(xué)歷 292
    10.4.4  分析年齡 292
    10.4.5  分析城市 294
    10.4.6  分析交友宣言 294
    10.5  小結 296

    熱門(mén)推薦文章
    相關(guān)優(yōu)評榜
    品類(lèi)齊全,輕松購物 多倉直發(fā),極速配送 正品行貨,精致服務(wù) 天天低價(jià),暢選無(wú)憂(yōu)
    購物指南
    購物流程
    會(huì )員介紹
    生活旅行/團購
    常見(jiàn)問(wèn)題
    大家電
    聯(lián)系客服
    配送方式
    上門(mén)自提
    211限時(shí)達
    配送服務(wù)查詢(xún)
    配送費收取標準
    海外配送
    支付方式
    貨到付款
    在線(xiàn)支付
    分期付款
    郵局匯款
    公司轉賬
    售后服務(wù)
    售后政策
    價(jià)格保護
    退款說(shuō)明
    返修/退換貨
    取消訂單
    特色服務(wù)
    奪寶島
    DIY裝機
    延保服務(wù)
    京東E卡
    京東通信
    京東JD+
    亚洲精品乱码久久久97_国产伦子一区二区三区_久久99精品久久久欧美_天天看片永久av影城网页
  • <em id="pai5d"></em><sup id="pai5d"></sup>
    
    

    <small id="pai5d"><rp id="pai5d"></rp></small>
    <option id="pai5d"></option>

    
    
  • <sup id="pai5d"></sup>
    <em id="pai5d"><label id="pai5d"></label></em>

  • <s id="pai5d"></s>