本书涵盖大数据专业经典的40个实验,每一个实验给出具体的目的、要求、原理,并给出详细的实验步骤和试验程序。具体包括HDFS实验、YARN实验、MapReduce实验、Hive实验、Spark实验、ZooKeeper实验、HBase实验、Storm实验等等。
刘鹏 ,清华大学博士,解放军理工大学教授 、学科带头人,中国云计算专家委员会委员。
主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得国际计算机排序比赛冠军,并二次夺得全国高校科技比赛*高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站
目 录
实验一 大数据实验一体机基础操作 1
1.1 实验目的 1
1.2 实验要求 1
1.3 实验原理 1
1.4 实验步骤 9
实验二 HDFS实验:部署HDFS 17
2.1 实验目的 17
2.2 实验要求 17
2.3 实验原理 17
2.4 实验步骤 19
实验三 HDFS实验:读写HDFS文件 21
3.1 实验目的 21
3.2 实验要求 21
3.3 实验原理 21
3.4 实验步骤 23
实验四 YARN实验:部署YARN集群 31
4.1 实验目的 31
4.2 实验要求 31
4.3 实验原理 31
4.4 实验步骤 33
4.5 实验结果 35
实验五 MapReduce实验:单词计数 37
5.1 实验目的 37
5.2 实验要求 37
5.3 实验原理 37
5.4 实验步骤 39
5.5 实验结果 41
实验六 MapReduce实验:二次排序 43
6.1 实验目的 43
6.2 实验要求 43
6.3 实验原理 43
6.4 实验步骤 43
6.5 实验结果 48
实验七 MapReduce实验:计数器 49
7.1 实验目的 49
7.2 实验要求 49
7.3 实验背景 49
7.4 实验步骤 51
7.5 实验结果 53
实验八 MapReduce实验:Join操作 55
8.1 实验目的 55
8.2 实验要求 55
8.3 实验背景 55
8.4 实验步骤 56
8.5 实验结果 61
实验九 MapReduce实验:分布式缓存 63
9.1 实验目的 63
9.2 实验要求 63
9.3 实验步骤 63
9.4 实验结果 68
实验十 Hive实验:部署Hive 69
10.1 实验目的 69
10.2 实验要求 69
10.3 实验原理 69
10.4 实验步骤 70
10.5 实验结果 71
实验十一 Hive实验:新建Hive表 73
11.1 实验目的 73
11.2 实验要求 73
11.3 实验原理 73
11.4 实验步骤 73
11.5 实验结果 75
实验十二 Hive实验:Hive分区 77
12.1 实验目的 77
12.2 实验要求 77
12.3 实验原理 77
12.4 实验步骤 77
12.5 实验结果 79
实验十三 Spark实验:部署Spark集群 80
13.1 实验目的 80
13.2 实验要求 80
13.3 实验原理 80
13.4 实验内容和步骤 81
13.5 实验结果 83
实验十四 Spark实验:SparkWordCount 85
14.1 实验目的 85
14.2 实验要求 85
14.3 实验原理 85
14.4 实验步骤 89
14.5 实验结果 89
实验十五 Spark实验:RDD综合实验 90
15.1 实验目的 90
15.2 实验要求 90
15.3 实验原理 90
15.4 实验步骤 91
15.5 实验结果 93
实验十六 Spark实验:Spark综例 94
16.1 实验目的 94
16.2 实验要求 94
16.3 实验原理 94
16.4 实验步骤 96
实验十七 Spark实验:Spark SQL 99
17.1 实验目的 99
17.2 实验要求 99
17.3 实验原理 99
17.4 实验步骤 100
17.5 实验结果 101
实验十八 Spark实验:Spark Streaming 103
18.1 实验目的 103
18.2 实验要求 103
18.3 实验原理 103
18.4 实验步骤 107
18.5 实验结果 110
实验十九 Spark实验:GraphX 111
19.1 实验目的 111
19.2 实验要求 111
19.3 实验原理 111
19.4 实验步骤 111
19.5 实验结果 116
实验二十 部署ZooKeeper 117
20.1 实验目的 117
20.2 实验要求 117
20.3 实验原理 117
20.4 实验步骤 117
20.5 实验结果 119
实验二十一 ZooKeeper进程协作 121
21.1 实验目的 121
21.2 实验要求 121
21.3 实验原理 121
21.4 实验步骤 121
21.5 实验结果 123
实验二十二 部署HBase 124
22.1 实验目的 124
22.2 实验要求 124
22.3 实验原理 124
22.4 实验步骤 125
22.5 实验结果 127
实验二十三 新建HBase表 128
23.1 实验目的 128
23.2 实验要求 128
23.3 实验原理 128
23.4 实验步骤 128
23.5 实验结果 133
实验二十四 部署Storm 135
24.1 实验目的 135
24.2 实验要求 135
24.3 实验原理 135
24.4 实验步骤 136
24.5 实验结果 138
实验二十五 实时WordCountTopology 139
25.1 实验目的 139
25.2 实验要求 139
25.3 实验原理 139
25.4 实验步骤 141
25.5 实验结果 144
实验二十六 文件数据Flume至HDFS 145
26.1 实验目的 145
26.2 实验要求 145
26.3 实验原理 145
26.4 实验步骤 147
26.5 实验结果 149
实验二十七 Kafka订阅推送示例 150
27.1 实验目的 150
27.2 实验要求 150
27.3 实验原理 150
27.4 实验步骤 152
27.5 实验结果 154
实验二十八 Pig版WordCount 155
28.1 实验目的 155
28.2 实验要求 155
28.3 实验原理 155
28.4 实验步骤 156
28.5 实验结果 158
实验二十九 Redis部署与简单使用 160
29.1 实验目的 160
29.2 实验要求 160
29.3 实验原理 160
29.4 实验步骤 162
29.5 实验结果 163
实验三十 MapReduce与Spark读写Redis 164
30.1 实验目的 164
30.2 实验要求 164
30.3 实验原理 164
30.4 实验步骤 165
30.5 实验结果 170
实验三十一 MongoDB实验:读写MongoDB 172
31.1 实验目的 172
31.2 实验要求 172
31.3 实验原理 172
31.4 实验步骤 173
31.5 实验结果 177
实验三十二 LevelDB实验:读写LevelDB 178
32.1 实验目的 178
32.2 实验要求 178
32.3 实验原理 178
32.4 实验步骤 181
32.5 实验结果 183
实验三十三 Mahout实验:K-Means 184
33.1 实验目的 184
33.2 实验要求 184
33.3 实验原理 184
33.4 实验步骤 187
33.5 实验结果 188
实验三十四 使用Spark实现K-Means 189
34.1 实验目的 189
34.2 实验要求 189
34.3 实验原理 189
34.4 实验步骤 189
34.5 实验结果 191
实验三十五 使用Spark实现SVM 192
35.1 实验目的 192
35.2 实验要求 192
35.3 实验原理 192
35.4 实验步骤 194
35.5 实验结果 195
实验三十六 使用Spark实现FP-Growth 197
36.1 实验目的 197
36.2 实验要求 197
36.3 实验原理 197
36.4 实验步骤 199
36.5 实验结果 200
实验三十七 综合实战:车牌识别 202
37.1 实验目的 202
37.2 实验要求 202
37.3 实验步骤 202
37.4 实验结果 209
实验三十八 综合实战:搜索引擎 211
38.1 实验目的 211
38.2 实验要求 211
38.3 实验步骤 211
38.4 实验结果 236
实验三十九 综合实战:推荐系统 239
39.1 实验目的 239
39.2 实验要求 239
39.3 实验步骤 239
39.4 实验结果 245
实验四十 综合实战:环境大数据 247
40.1 实验目的 247
40.2 实验要求 247
40.3 实验原理 247
40.4 实验步骤 247
实验四十一 综合实战:智能硬件大数据托管 259
41.1 实验目的 259
41.2 实验要求 259
41.3 实验原理 259
41.4 实验步骤 261
41.5 实验结果 266
实验四十二 综合实战:贷款风险评估 268
42.1 实验目的 268
42.2 实验要求 268
42.3 实验原理 268
42.4 实验相关 269
42.5 实验结果 275