本書(shū)著(zhù)重介紹大數據的基本概念、架構以及主流的大數據系統等方面內容,涵蓋了大數據融合、存儲、分析、隱私、系統等方面的內容,具體包括:大數據的概念、演變過(guò)程和處理模式,大數據融合的概念、獨特性、任務(wù)和方法論,大數據存儲與管理方法以及計算與存儲融合的技術(shù),大數據分析技術(shù),大數據隱私保護,大數據管理系統等。本書(shū)主要面向的讀者為對大數據領(lǐng)域有興趣的學(xué)生、研究人員和相關(guān)從業(yè)人員等。
中國人民大學(xué)信息學(xué)院副院長(cháng),博士生導師、教授?,F為中國計算機學(xué)會(huì )常務(wù)理事、中國計算機學(xué)會(huì )數據庫專(zhuān)委會(huì )秘書(shū)長(cháng),《Journal of Computer Science and Technology》、《Frontiers of Computer Science in China》、《軟件學(xué)報》、《計算機研究與發(fā)展》等編委。
叢書(shū)前言
前言
作者簡(jiǎn)介
第1章 概述 1
1.1 大數據的基本概念 1
1.2 大數據的演變過(guò)程 2
1.3 大數據應用 4
1.4 大數據的處理模式 6
1.4.1 批處理 7
1.4.2 流處理 8
1.5 大數據管理的關(guān)鍵技術(shù) 9
1.5.1 大數據融合 9
1.5.2 大數據分析 10
1.5.3 大數據隱私 11
1.5.4 大數據能耗 12
1.5.5 大數據處理與硬件的協(xié)同 13
1.6 小結 15
第2章 大數據融合 16
2.1 引言 16
2.2 大數據融合的概念 17
2.2.1 大數據融合需求的獨特性 18
2.2.2 大數據融合對象的獨特性 20
2.3 大數據融合的方法論 23
2.3.1 數據庫視角下的融合 23
2.3.2 認知計算和人工智能視角下的融合 25
2.3.3 兩種融合方式的對比分析 28
2.3.4 大數據融合范式 30
2.4 數據融合技術(shù) 32
2.4.1 模式/本體對齊 32
2.4.2 實(shí)體鏈接 33
2.4.3 沖突解決 34
2.4.4 知識庫自適應發(fā)展 35
2.5 知識融合技術(shù) 36
2.5.1 知識抽象與建模 36
2.5.2 關(guān)系推演 37
2.5.3 深度知識發(fā)現 38
2.5.4 普適機理的剖析和歸納 39
2.6 大數據融合的驅動(dòng)樞紐 40
2.6.1 智能晶格 40
2.6.2 遷移學(xué)習 40
2.6.3 數據溯源 41
2.6.4 D&2V處理 42
2.7 小結 43
第3章 大數據存儲 44
3.1 引言 44
3.2 大數據存儲與管理方法 46
3.2.1 基于PCM的主存架構 47
3.2.2 基于閃存的主存擴展架構 47
3.2.3 基于多存儲介質(zhì)的分層存儲架構 48
3.2.4 分布式存儲與緩存架構 49
3.3 基于新型存儲的大數據管理 50
3.3.1 存儲管理 50
3.3.2 索引管理 51
3.3.3 查詢(xún)處理 52
3.3.4 事務(wù)處理 53
3.3.5 大數據分析 53
3.4 大數據處理與存儲一體化技術(shù) 54
3.4.1 一體化架構中的大數據存儲 55
3.4.2 一體化架構中的大數據處理 56
3.4.3 一體化架構面臨的挑戰 57
3.5 小結 58
第4章 大數據分析 60
4.1 引言 60
4.1.1 傳統的數據分析技術(shù) 60
4.1.2 大數據的分析技術(shù) 62
4.2 大數據的實(shí)時(shí)分析 64
4.2.1 實(shí)時(shí)分析的背景和概念 64
4.2.2 實(shí)時(shí)分析技術(shù) 66
4.3 大數據的交互式分析 70
4.3.1 交互式分析的背景和概念 70
4.3.2 交互式分析技術(shù) 71
4.4 云在線(xiàn)聚集 74
4.4.1 云在線(xiàn)聚集技術(shù)的背景和概念 74
4.4.2 云在線(xiàn)聚集的關(guān)鍵技術(shù) 77
4.5 大數據的智能分析 81
4.5.1 大數據分析中的計算智能 81
4.5.2 智能分析的主要技術(shù) 82
4.6 小結 84
第5章 大數據隱私 85
5.1 引言 85
5.1.1 大數據的類(lèi)型 86
5.1.2 隱私特征與類(lèi)別 87
5.1.3 大數據的隱私風(fēng)險 88
5.2 隱私保護技術(shù) 91
5.2.1 匿名化技術(shù) 91
5.2.2 數據加密技術(shù) 92
5.2.3 差分隱私技術(shù) 93
5.2.4 隱私信息檢索技術(shù) 94
5.3 隱私保護技術(shù)的應用 94
5.3.1 位置大數據中的隱私保護 95
5.3.2 數據發(fā)布和分析中的隱私保護 97
5.3.3 互聯(lián)網(wǎng)搜索中的隱私保護 101
5.3.4 云計算中的隱私保護 103
5.4 大數據隱私管理 107
5.4.1 隱私管理的目標 107
5.4.2 主動(dòng)式隱私管理框架 108
5.5 小結 110
第6章 大數據管理系統 111
6.1 引言 111
6.2 云計算:大數據的基礎平臺與支撐技術(shù) 112
6.3 批數據與流數據管理系統 116
6.3.1 批數據管理系統 118
6.3.2 流數據管理系統 119
6.3.3 混合處理系統 120
6.4 SQL、NoSQL與NewSQL系統 121
6.4.1 SQL類(lèi)數據庫 123
6.4.2 NoSQL類(lèi)數據庫 125
6.4.3 NewSQL類(lèi)數據庫 128
6.5 小結 129
第7章 基于大數據的交叉學(xué)科研究 131
7.1 引言 131
7.2 在線(xiàn)用戶(hù)行為演化研究 133
7.2.1 在線(xiàn)用戶(hù)行為大數據 133
7.2.2 在線(xiàn)用戶(hù)行為演化 134
7.3 在線(xiàn)用戶(hù)興趣長(cháng)程演化 135
7.3.1 理論與方法 136
7.3.2 在線(xiàn)用戶(hù)興趣演化分析 137
7.4 在線(xiàn)用戶(hù)集體注意力流 141
7.4.1 注意力流網(wǎng)絡(luò ) 142
7.4.2 注意力流網(wǎng)絡(luò )中的異速標度律 143
7.4.3 注意力流的應用:Web站點(diǎn)排名 144
7.5 在線(xiàn)用戶(hù)集體注意力流的普適模式 146
7.5.1 異速標度律 147
7.5.2 耗散律 149
7.5.3 引力律 150
7.5.4 Heaps律 151
7.6 小結 152
附錄 大數據思考 154
附錄A 大數據與小數據 154
附錄B 數據的起源 158
附錄C 大數據時(shí)代的信息系統 161
附錄D 數據庫(DB)與大數據(BD) 163
附錄E 大數據多學(xué)科交叉研究 166
附錄F 創(chuàng )新數據管理研究2.0 168
附錄G 面向移動(dòng)計算與云計算的數據管理 170
附錄H 大數據時(shí)代的到來(lái):數據空間與閃存數據庫研究 172
附錄I 隱私保護研究 175
附錄J 網(wǎng)絡(luò )與移動(dòng)數據管理研究 176
附錄K 大數據管理基石:Web數據管理 178
附錄L 大數據管理基石:數據集成 181
附錄M 從數據庫大師看數據庫發(fā)展 182
參考文獻 185