作者具有豐富的一線(xiàn)經(jīng)驗。重點(diǎn)介紹了大數據系統的運維特點(diǎn)及運維技能。本書(shū)從運維工作的分類(lèi)出發(fā),對每種運維工作都進(jìn)行了由淺入深的介紹。配置管理是整個(gè)運維工作的基礎和核心,沒(méi)有配置管理,就如同在復雜的城市道路中行走沒(méi)有了地圖,隨時(shí)可能迷失方向;同時(shí),在配置管理章節介紹大數據技術(shù)的運維管理工具,掌握這些工具能有效地提高工作效率。系統管理,故障管理,變更管理和升級管理是基礎性的,也是日常性的運維工作;安全管理,性能管理,服務(wù)資源管理和高可用管理則在運維工作中相對比較高階,也是比較復雜的內容;且系統運維注重強調標準、流程和制度。本書(shū)側重理論和實(shí)踐的結合。
《大數據系統運維》是大數據應用人才培養系列教材中的一冊,講解了大數據系統運行維護過(guò)程中的各個(gè)主要階段及其任務(wù),包括配置管理、系統管理、故障管理、性能管理、安全管理、高可用性管理、應用變更管理、升級管理及服務(wù)資源管理,內容全面且翔實(shí),兼具基礎理論知識與運維實(shí)踐經(jīng)驗,特別是重點(diǎn)介紹了大數據系統的運維特點(diǎn)及運維技能,以保障大數據系統的穩定可靠運行,更好地支撐大數據的商業(yè)應用價(jià)值。
本書(shū)具有很強的系統性和實(shí)踐指導性,可以作為培養應用型人才的課程教材,也同樣適合于有意從事IT系統運維工作的廣大從業(yè)者和愛(ài)好者作為參考書(shū)。
姜才康同志,華東計算所碩士畢業(yè),現任中國外匯交易中心工程運行部總經(jīng)理。長(cháng)期從事銀行間市場(chǎng)(含外匯市場(chǎng)、貨幣市場(chǎng)、債券市場(chǎng)、衍生品市場(chǎng))的系統設計開(kāi)發(fā)、系統運維、標準制定等工作。主持或技術(shù)擔綱完成了數十項全國性大型關(guān)鍵系統建設及重點(diǎn)研究項目,探索中國金融領(lǐng)域的系統建設技術(shù)路徑及方法;構建全方位的銀行間市場(chǎng)風(fēng)險治理和運維安全體系;制定多項銀行間市場(chǎng)技術(shù)規劃及技術(shù)標準,建成并不斷完善銀行間市場(chǎng)技術(shù)生態(tài)圈。數十次獲得人民銀行科技發(fā)展獎和上海市科技進(jìn)步獎。
第1章 配置管理
1.1 配置管理內容 2
1.1.1 配置管理術(shù)語(yǔ)定義 2
1.1.2 應用軟件配置 3
1.1.3 硬件配置 4
1.2 配置管理方法 8
1.2.1 配置流程 9
1.2.2 配置自動(dòng)發(fā)現 13
1.3 配置管理工具 14
1.3.1 CMDB數據庫介紹與實(shí)踐 14
1.3.2 自動(dòng)配置工具 17
1.3.3 云時(shí)代下的CMDB 29
1.4 其他運維工具 29
1.4.1 Ambari 29
1.4.2 CLI工具 32
1.4.3 Ganglia 33
1.4.4 Cloudera Manager 34
1.4.5 其他工具 38
1.5 作業(yè)與練習 39
參考文獻 39
第2章 系統管理及日常巡檢
2.1 系統建設 40
2.1.1 技術(shù)方案 41
2.1.2 部署實(shí)施 43
2.1.3 測試驗收 47
2.2 系統管理對象 48
2.2.1 系統管理對象 48
2.2.2 系統軟件 49
2.2.3 系統硬件 61
2.2.4 系統數據 62
2.2.5 IT供應商 62
2.3 系統管理內容 63
2.3.1 事件管理 64
2.3.2 問(wèn)題管理 64
2.3.3 配置管理 65
2.3.4 變更管理 66
2.3.5 發(fā)布管理 66
2.3.6 知識管理 67
2.3.7 日志管理 67
2.3.8 備份管理 68
2.4 系統管理工具 68
2.4.1 資產(chǎn)管理 69
2.4.2 監控管理 69
2.4.3 流程管理 70
2.4.4 外包管理 71
2.5 系統管理制度規范 71
2.5.1 系統管理標準 71
2.5.2 系統管理制度 72
2.5.3 系統管理規范 72
2.6 日常巡檢 73
2.6.1 檢查內容分類(lèi) 73
2.6.2 巡檢方法分類(lèi) 74
2.6.3 巡檢流程 75
2.7 作業(yè)與練習 76
參考文獻 77
第3章 故障管理
3.1 集群結構 78
3.2 故障報告 80
3.2.1 發(fā)現 80
3.2.2 影響分析 81
3.3 故障處理 82
3.3.1 故障診斷 82
3.3.2 故障排除 83
3.4 故障后期管理 84
3.4.1 建立和更新知識庫 84
3.4.2 故障預防 85
3.5 作業(yè)與練習 86
參考文獻 86
第4章 性能管理
4.1 性能分析 87
4.1.1 性能因子 87
4.1.2 性能指標 88
4.2 性能監控工具 90
4.2.1 GUI 90
4.2.2 集群CLI 94
4.2.3 操作系統自帶工具 99
4.2.4 Ganglia 105
4.2.5 其他監控工具 107
4.3 性能優(yōu)化 107
4.3.1 Hadoop集群配置規劃優(yōu)化 107
4.3.2 Hadoop性能優(yōu)化 108
4.3.3 作業(yè)優(yōu)化 112
4.4 作業(yè)與練習 120
參考文獻 120
第5章 安全管理
5.1 安全概述 121
5.2 資產(chǎn)安全管理 122
5.2.1 環(huán)境設施安全 122
5.2.2 設備安全 123
5.3 應用安全 123
5.3.1 技術(shù)安全 123
5.3.2 數據安全 127
5.4 安全威脅 129
5.4.1 人為失誤 129
5.4.2 外部攻擊 131
5.4.3 信息泄密 132
5.4.4 災害 133
5.5 安全措施 133
5.5.1 安全制度規范 133
5.5.2 安全防范措施 134
5.6 作業(yè)與練習 135
參考文獻 136
第6章 高可用性管理
6.1 高可用性概述 137
6.2 高可用性技術(shù) 138
6.2.1 系統架構 138
6.2.2 容災 140
6.2.3 監控 140
6.2.4 故障轉移 148
6.3 業(yè)務(wù)連續性管理 149
6.3.1 災備系統 149
6.3.2 應急預案 153
6.3.3 日常演練 154
6.4 作業(yè)與練習 155
第7章 應用變更管理
7.1 變更管理概述 156
7.1.1 變更管理目標 156
7.1.2 變更管理范圍 156
7.1.3 變更管理的種類(lèi) 157
7.1.4 變更管理的原則 157
7.2 變更管理流程 158
7.2.1 變更的組織架構 158
7.2.2 變更的管理策略 158
7.2.3 變更的流程控制 158
7.2.4 變更管理流程 158
7.3 變更配置管理 161
7.4 作業(yè)與練習 161
參考文獻 161
第8章 升級管理
8.1 Hadoop升級管理 162
8.1.1 Hadoop升級風(fēng)險 163
8.1.2 HDFS的數據和元數據升級 163
8.1.3 YARN升級配置 164
8.2 Spark升級管理 164
8.2.1 Spark特性 165
8.2.2 Spark生態(tài)系統 166
8.3 Hive SQL升級管理 166
8.3.1 Hive SQL體系結構 167
8.3.2 安裝配置 167
8.4 ZooKeeper升級管理 169
8.4.1 單機模式 169
8.4.2 集群模式 170
8.5 作業(yè)與練習 171
參考文獻 172
第9章 服務(wù)資源管理
9.1 業(yè)務(wù)能力管理 173
9.1.1 業(yè)務(wù)需求評估 173
9.1.2 業(yè)務(wù)需求趨勢預測 174
9.2 服務(wù)能力管理 176
9.2.1 人員能力動(dòng)態(tài)管理 176
9.2.2 服務(wù)成本動(dòng)態(tài)管理 177
9.2.3 技術(shù)與工具管理 179
9.3 服務(wù)資源整合 179
9.3.1 不同角色的責權劃分 179
9.3.2 用戶(hù)、供應商、廠(chǎng)商的典型協(xié)作方式 181
9.4 作業(yè)與練習 183
參考文獻 184
附錄A 大數據和人工智能實(shí)驗環(huán)境
附錄B Hadoop環(huán)境要求
附錄C 名詞解釋