大數(shù)據(jù)與人工智能首頁(yè)>圖書中心>IT新學(xué)科新專業(yè)
- 書 名:大數(shù)據(jù)技術(shù)基礎(chǔ)
- 出版時(shí)間:2019-10-11
- 編 著 者:鄂海紅
- 版 次:1-4
- I S B N:978-7-5635-5878-0
- 定 價(jià):¥48.00元
內(nèi)容簡(jiǎn)介
本書圍繞大數(shù)據(jù)技術(shù)基礎(chǔ),重點(diǎn)介紹了大數(shù)據(jù)存儲(chǔ)系統(tǒng)(分布式文件系統(tǒng)和NoSQL數(shù)據(jù)庫(kù))、大數(shù)據(jù)處理框架(Hadoop的MapReduce、Spark及實(shí)時(shí)處理框架Storm和Flink)、大數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(Hive、Druid等)、大數(shù)據(jù)多維分析(Kylin)、大數(shù)據(jù)可視化技術(shù)和大數(shù)據(jù)綜合應(yīng)用等,以及當(dāng)今主流的大數(shù)據(jù)平臺(tái)構(gòu)建技術(shù)和開源組件實(shí)踐知識(shí),可以指導(dǎo)讀者全面、系統(tǒng)地掌握大數(shù)據(jù)各層的實(shí)現(xiàn)方案,開展各領(lǐng)域的大數(shù)據(jù)實(shí)踐。本書可作為計(jì)算機(jī)學(xué)科相關(guān)專業(yè),特別是數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的教材。
目錄介紹
第1章大數(shù)據(jù)概述1
本章思維導(dǎo)圖1
1.1大數(shù)據(jù)簡(jiǎn)介2
1.1.1大數(shù)據(jù)的發(fā)展歷程2
1.1.2大數(shù)據(jù)的定義與特征2
1.1.3大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別3
1.2大數(shù)據(jù)平臺(tái)應(yīng)具備的能力3
1.3大數(shù)據(jù)平臺(tái)架構(gòu)5
1.4Hadoop生態(tài)系統(tǒng)8
1.5大數(shù)據(jù)應(yīng)用10
1.5.1互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用10
1.5.2金融行業(yè)大數(shù)據(jù)應(yīng)用10
1.5.3醫(yī)療行業(yè)大數(shù)據(jù)應(yīng)用11
1.5.4智慧交通大數(shù)據(jù)應(yīng)用11
本章課后習(xí)題12
本章參考文獻(xiàn)12
第2章大數(shù)據(jù)存儲(chǔ)——分布式文件系統(tǒng)及NoSQL數(shù)據(jù)庫(kù)14
本章思維導(dǎo)圖14
2.1分布式文件系統(tǒng)15
2.1.1HDFS相關(guān)概念15
2.1.2HDFS體系結(jié)構(gòu)16
2.1.3HDFS存儲(chǔ)機(jī)制18
2.1.4HDFS讀/寫操作20
2.1.5HDFS數(shù)據(jù)導(dǎo)入21
2.2NoSQL數(shù)據(jù)庫(kù)22
2.2.1KeyValue模型22
2.2.2KeyDocument 模型23
2.2.3KeyColumn模型24
2.2.4圖模型25
2.3列族數(shù)據(jù)庫(kù)25
2.3.1列族數(shù)據(jù)庫(kù)簡(jiǎn)介25
2.3.2HBase的基本原理26
2.3.3HBase的數(shù)據(jù)模型30
2.4鍵值數(shù)據(jù)庫(kù)33
2.4.1鍵值數(shù)據(jù)庫(kù)簡(jiǎn)介33
2.4.2選擇鍵值數(shù)據(jù)庫(kù)的原因33
2.4.3Redis的數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)介34
2.4.4Redis的數(shù)據(jù)持久化36
2.4.5Redis的數(shù)據(jù)復(fù)制37
2.5文檔數(shù)據(jù)庫(kù)38
2.5.1文檔數(shù)據(jù)庫(kù)簡(jiǎn)介38
2.5.2MongoDB的數(shù)據(jù)類型39
2.5.3MongoDB的數(shù)據(jù)復(fù)制40
2.6圖數(shù)據(jù)庫(kù)42
2.6.1圖數(shù)據(jù)庫(kù)簡(jiǎn)介42
2.6.2圖數(shù)據(jù)庫(kù)的優(yōu)勢(shì)43
2.6.3Neo4j的基本元素與概念44
2.6.4Cypher簡(jiǎn)介46
本章課后習(xí)題47
本章參考文獻(xiàn)47
第3章大數(shù)據(jù)處理——MapReduce處理框架48
本章思維導(dǎo)圖48
3.1MapReduce的發(fā)展背景49
3.2MapReduce框架50
3.3MapReduce的編程模型52
3.3.1MapReduce初析52
3.3.2MapReduce的運(yùn)行機(jī)制57
3.3.3MapReduce的相關(guān)問題59
3.4MapReduce的集群調(diào)度60
3.4.1Hadoop1.x的傳統(tǒng)集群調(diào)度框架60
3.4.2Hadoop2.x的集群調(diào)度框架YARN61
3.4.3Hadoop作業(yè)調(diào)度器64
本章課后習(xí)題67
本章參考文獻(xiàn)67
第4章大數(shù)據(jù)處理——分布式內(nèi)存處理框架Spark 68
本章思維導(dǎo)圖68
4.1Spark簡(jiǎn)介69
4.1.1Spark介紹69
4.1.2提出Spark的原因70
4.1.3Spark中的關(guān)鍵術(shù)語70
4.1.4Spark的優(yōu)點(diǎn)71
4.2Spark框架72
4.2.1Spark框架圖72
4.2.2Spark運(yùn)行圖73
4.2.3Spark任務(wù)調(diào)度方法73
4.3RDD概念理解74
4.3.1RDD介紹74
4.3.2RDD的操作75
4.3.3RDD的存儲(chǔ)75
4.3.4RDD分區(qū)76
4.3.5RDD優(yōu)先位置76
4.3.6RDD依賴關(guān)系76
4.4RDD操作78
4.4.1RDD創(chuàng)建78
4.4.2轉(zhuǎn)換操作78
4.4.3行動(dòng)操作80
4.5Scala語言81
4.5.1Scala介紹81
4.5.2Scala基本語法82
4.5.3Scala編寫Spark示例86
4.6Spark SQL簡(jiǎn)介86
4.6.1Spark SQL與Shark的對(duì)比86
4.6.2Spark SQL的優(yōu)勢(shì)87
4.6.3Spark SQL生態(tài)87
4.7MLlib簡(jiǎn)介88
4.7.1MLlib介紹88
4.7.2MLlib支持機(jī)器學(xué)習(xí)算法88
本章課后習(xí)題89
本章參考文獻(xiàn)89
第5章大數(shù)據(jù)處理——實(shí)時(shí)處理框架90
本章思維導(dǎo)圖90
5.1實(shí)時(shí)處理架構(gòu)91
5.1.1基本概念91
5.1.2批量和流式計(jì)算92
5.1.3系統(tǒng)生態(tài)簡(jiǎn)介92
5.2Storm框架93
5.2.1Storm的基本術(shù)語和概念93
5.2.2Storm特性及運(yùn)行原理94
5.2.3消息的生命周期95
5.2.4消息的可靠性保障96
5.3Flume分布式日志收集98
5.3.1Flume的基本術(shù)語和概念98
5.3.2源99
5.3.3通道100
5.3.4接收器100
5.4Kafka分布式消息隊(duì)列101
5.4.1Kafka的基本術(shù)語和概念102
5.4.2生產(chǎn)者103
5.4.3消費(fèi)者104
5.4.4數(shù)據(jù)傳遞的可靠性保障105
5.5Spark Streaming框架107
5.5.1Spark Streaming架構(gòu)107
5.5.2輸入數(shù)據(jù)源108
5.5.3DStream的轉(zhuǎn)換操作108
5.5.4輸出存儲(chǔ)110
5.5.5容錯(cuò)機(jī)制110
5.6Flink框架112
5.6.1Flink架構(gòu)112
5.6.2Client112
5.6.3JobManager113
5.6.4TaskManager114
本章課后習(xí)題115
本章參考文獻(xiàn)115
第6章大數(shù)據(jù)查詢——分布式數(shù)據(jù)查詢116
本章思維導(dǎo)圖116
6.1分布式數(shù)據(jù)查詢簡(jiǎn)介117
6.2Hive分布式數(shù)據(jù)倉(cāng)庫(kù)118
6.2.1Hive概述118
6.2.2Hive內(nèi)部介紹118
6.2.3Hive架構(gòu)介紹119
6.2.4HiveQL:數(shù)據(jù)定義119
6.2.5HiveQL:數(shù)據(jù)導(dǎo)入121
6.2.6HiveQL:查詢123
6.3Druid時(shí)序數(shù)據(jù)倉(cāng)儲(chǔ)129
6.3.1Druid概述129
6.3.2架構(gòu)詳解132
6.3.3數(shù)據(jù)攝入135
6.3.4數(shù)據(jù)查詢141
6.4Drill分布式實(shí)時(shí)查詢156
6.4.1使用Apache Drill的原因156
6.4.2Drill架構(gòu)與原理157
6.4.3Drill核心模塊160
6.4.4使用Drill實(shí)現(xiàn)查詢161
本章課后習(xí)題168
本章參考文獻(xiàn)168
第7章大數(shù)據(jù)分析——Kylin分布式多維數(shù)據(jù)分析170
本章思維導(dǎo)圖170
7.1使用Apache Kylin的原因171
7.2Kylin學(xué)習(xí)的前奏172
7.2.1數(shù)據(jù)倉(cāng)庫(kù)的概念與產(chǎn)生需求172
7.2.2數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)分析型系統(tǒng)174
7.2.3多維數(shù)據(jù)分析175
7.2.4OLAP與數(shù)據(jù)立方體176
7.3Kylin工作原理178
7.3.1Cube與Cuboid178
7.3.2工作流程178
7.4Kylin架構(gòu)179
7.5Kylin快速入門181
7.5.1在Hive中準(zhǔn)備數(shù)據(jù)181
7.5.2設(shè)計(jì)數(shù)據(jù)模型181
7.5.3創(chuàng)建Cube183
7.5.4構(gòu)建Cube186
7.5.5查詢Cube188
7.6增量構(gòu)建188
7.6.1設(shè)計(jì)增量Cube189
7.6.2觸發(fā)增量構(gòu)建190
7.6.3管理Cube碎片190
7.7查詢和可視化192
7.7.1Web GUI192
7.7.2Rest API194
7.7.3ODBC197
7.7.4通過Tableau訪問Kylin197
7.8Cube優(yōu)化201
本章課后習(xí)題204
本章參考文獻(xiàn)204
第8章數(shù)據(jù)可視化205
本章思維導(dǎo)圖205
8.1數(shù)據(jù)可視化定義及分類206
8.1.1數(shù)據(jù)可視化定義206
8.1.2數(shù)據(jù)可視化分類206
8.2數(shù)據(jù)可視化基礎(chǔ)208
8.2.1數(shù)據(jù)可視化流程208
8.2.2可視化中的數(shù)據(jù)209
8.2.3可視化的基本圖表210
8.2.4視圖的交互211
8.3信息可視化分類212
8.3.1時(shí)空數(shù)據(jù)可視化212
8.3.2層次和網(wǎng)絡(luò)數(shù)據(jù)可視化213
8.3.3文本和文檔可視化214
8.4在商業(yè)智能中的數(shù)據(jù)可視化應(yīng)用214
8.4.1商業(yè)智能可視化的基本元素215
8.4.2儀表盤的設(shè)計(jì)準(zhǔn)則215
8.5數(shù)據(jù)可視化的實(shí)現(xiàn)216
8.5.1數(shù)據(jù)可視化工具216
8.5.2ECharts217
8.5.3Plotly218
本章課后習(xí)題220
本章參考文獻(xiàn)221
第9章大數(shù)據(jù)應(yīng)用系統(tǒng)案例——互聯(lián)網(wǎng)應(yīng)用大數(shù)據(jù)系統(tǒng)構(gòu)建222
本章思維導(dǎo)圖222
9.1互聯(lián)網(wǎng)業(yè)務(wù)背景介紹223
9.2案例的大數(shù)據(jù)平臺(tái)技術(shù)體系架構(gòu)223
9.2.1數(shù)據(jù)采集224
9.2.2數(shù)據(jù)存儲(chǔ)226
9.2.3數(shù)據(jù)計(jì)算227
9.2.4數(shù)據(jù)應(yīng)用229
本章課后習(xí)題230
本章參考文獻(xiàn)230