Hadoop大数据平台搭建与应用(工作手册式)(微课版)
定 价:55 元
丛书名:高等职业教育大数据工程技术系列教材
- 作者:时东晓
- 出版时间:2023/8/1
- ISBN:9787121461446
- 出 版 社:电子工业出版社
- 中图法分类:TP274
- 页码:272
- 纸张:
- 版次:01
- 开本:16开
本书为高等职业教育计算机类新形态——工作手册式教材,内容包括基础环境的搭建与配置,Hadoop完全分布式集群的搭建与运行,Hadoop 核心组件的应用案例,Hive 组件的安装、配置与应用,ZooKeeper的安装、配置与应用,HBase 的安装、配置与应用,Sqoop 组件的安装、配置与应用,Flume 组件的安装、配置与应用,Kafka 的安装、配置与应用,Spark 的安装、配置与应用,广电大数据用户画像。本书采用项目式设计,以项目学习目标、任务描述、任务分析和任务实施作为立体化工作指南。本书由校企联合开发,融合了大数据平台运维的“1+X”技能考证、大数据运维工程师岗位证书考试等内容,从实用出发,通俗易懂,难度适宜,便于开展理论实践一体化、岗课赛证融通教学。本书配有电子教学课件、微课视频、项目素材(代码和数据等)和考试题库等数字资源。
时东晓,男,1967年3月出生,中共党员,1987年7月毕业于西安电子科技大学计算机工程专业,获工学学士学位,武汉大学软件工程硕士。1998年6月评聘为高级工程师,工信部认证CIO,信息安全工程师(高级),具有丰富的行业企业实践经验和职业教育教学经验。
项目1 基础环境的搭建与配置 1
任务1.1 搭建虚拟机 2
1.1.1 安装虚拟机软件 2
1.1.2 安装master节点虚拟机 4
1.1.3 配置master节点的网络 7
1.1.4 克隆slave节点 10
任务1.2 配置连接工具 13
1.2.1 测试Windows操作系统连接虚拟机 14
1.2.2 使用Xshell工具 15
1.2.3 使用Xftp工具 18
任务1.3 配置Hadoop平台基础环境 20
1.3.1 设置服务器的主机名 20
1.3.2 关闭并禁用防火墙 21
1.3.3 修改主机IP地址映射文件 23
1.3.4 配置SSH免密登录 24
1.3.5 设置集群时间同步 29
1.3.6 安装Java环境 32
项目总结 35
项目2 Hadoop完全分布式的搭建与运行 36
任务2.1 搭建Hadoop完全分布式集群 37
任务2.2 运行Hadoop集群 46
2.2.1 格式化NameNode 46
2.2.2 启动和关闭Hadoop集群 47
2.2.3 使用浏览器查看节点状态 49
项目总结 50
项目3 Hadoop核心组件的应用案例 51
任务3.1 Hadoop Java API读取序列化日志文件 51
3.1.1 配置开发环境 52
3.1.2 创建Maven工程 55
3.1.3 读取序列化文件 57
任务3.2 预测M电影网站用户性别 60
3.2.1 获取数据 61
3.2.2 数据变换 62
3.2.3 数据清洗 77
3.2.4 划分数据集 79
3.2.5 实现用户性别聚类 83
项目总结 91
项目4 Hive组件的安装、配置与应用 92
任务4.1 安装与配置MySQL数据库 93
4.1.1 安装MySQL数据库 93
4.1.2 配置MySQL数据库 96
任务4.2 安装与配置Hive组件 99
4.2.1 安装Hive组件 99
4.2.2 配置Hive环境 101
4.2.3 初始化Hive数据库 103
任务4.3 Hive Shell的基本操作 104
4.3.1 启动Hive 105
4.3.2 操作Hive数据库 105
4.3.3 操作Hive内部表 106
任务4.4 统计分析餐饮数据 110
4.4.1 数据说明 110
4.4.2 创建表并导入数据 111
4.4.3 统计分析任务实现 112
项目总结 117
项目5 ZooKeeper的安装、配置与应用 118
任务5.1 分布式搭建部署与管理ZooKeeper 119
5.1.1 在master节点上安装ZooKeeper组件 119
5.1.2 在master节点上配置ZooKeeper组件 121
5.1.3 在slave节点上安装与配置ZooKeeper组件 122
5.1.4 管理ZooKeeper服务 123
任务5.2 监控服务器上下线动态 124
5.2.1 创建Maven工程并连接ZooKeeper集群 125
5.2.2 任务实现 125
项目总结 128
项目6 HBase的安装、配置与应用 129
任务6.1 安装与配置HBase 130
6.1.1 在master节点上安装HBase组件 130
6.1.2 在master节点上修改配置文件 132
6.1.3 在slave节点上安装HBase组件 134
6.1.4 启动HBase集群 134
任务6.2 HBase Shell的基本操作 136
6.2.1 应用HBase Shell 136
6.2.2 操作HBase表 138
6.2.3 操作HBase数据 139
任务6.3 设计手游信息的数据存储 141
6.3.1 设计表结构 142
6.3.2 创建表结构 142
6.3.3 设计业务逻辑 147
项目总结 156
项目7 Sqoop组件的安装、配置与应用 157
任务7.1 安装与配置Sqoop组件 158
7.1.1 安装Sqoop组件 158
7.1.2 修改Sqoop组件配置文件 160
7.1.3 测试Sqoop组件的安装情况 161
任务7.2 Sqoop组件的导入与导出应用操作 162
7.2.1 准备MySQL数据库数据 162
7.2.2 在Hive中准备表 163
7.2.3 将MySQL数据库中的数据导入Hive 164
7.2.4 将MySQL数据库中的数据导入HDFS 165
7.2.5 从Hive中导出数据至MySQL数据库 168
任务7.3 查询与传输用户日志数据 170
7.3.1 查询MySQL数据库的用户日志数据表中的记录数 170
7.3.2 增量导入MySQL数据库中的用户日志数据至Hive 171
7.3.3 导出Hive中的浏览信息筛选结果至MySQL数据库 172
项目总结 173
项目8 Flume组件的安装、配置与应用 174
任务8.1 安装与配置Flume组件 175
8.1.1 安装Flume组件 175
8.1.2 配置Flume组件 177
8.1.3 创建代理配置文件 178
8.1.4 启动Flume并传输数据 179
8.1.5 查看Flume传输的文件数据 179
任务8.2 广告日志数据采集系统 180
8.2.1 采集系统日志数据 182
8.2.2 采集广告曝光日志数据 183
项目总结 186
项目9 Kafka的安装、配置与应用 187
任务9.1 安装与配置Kafka 188
9.1.1 在master节点上安装与配置Kafka组件 188
9.1.2 在slave节点上安装Kafka组件 190
9.1.3 管理Kafka服务 191
9.1.4 演示Kafka分布式发布订阅消息 192
任务9.2 实时传输广告日志数据 194
9.2.1 创建脚本文件 194
9.2.2 创建Kafka主题 196
9.2.3 Flume采集日志 196
项目总结 198
项目10 Spark的安装、配置与应用 199
任务10.1 安装与配置Scala 200
10.1.1 在master节点上安装Scala 200
10.1.2 在slave节点上安装Scala 202
10.1.3 测试Scala的安装情况 202
任务10.2 安装与配置Spark组件 203
10.2.1 在master节点上安装Spark组件 203
10.2.2 修改Spark配置文件 205
10.2.3 在slave节点上安装Spark组件 206
10.2.4 运行Spark集群 206
任务10.3 应用举例spark-shell 208
10.3.1 上传数据文件 208
10.3.2 运行spark-shell单词统计程序 209
任务10.4 聚类分析超市客户 212
10.4.1 安装Scala插件 212
10.4.2 配置Spark运行环境 214
10.4.3 探索数据与构建特征 217
10.4.4 保存数据至Hive 221
10.4.5 构建K-means聚类模型 221
项目总结 224
项目11 广电大数据用户画像 225
任务11.1 说明与存储数据 225
任务11.2 数据探索与数据预处理 231
11.2.1 总体概述 232
11.2.2 探索异常数据 234
11.2.3 探索主要业务数据 236
11.2.4 探索标签阈值 239
11.2.5 数据预处理 245
任务11.3 构建SVM预测模型与用户画像 250
11.3.1 构建特征列和标签列数据 250
11.3.2 构建SVM模型、评价模型效果并预测用户是否挽留 253
11.3.3 构建用户画像 255
项目总结 261
附录A 选用组件版本列表 262