Hadoop大数据平台构建与应用(第2版)(微课版)
定 价:55 元
- 作者:马荣飞
- 出版时间:2024/7/1
- ISBN:9787121481604
- 出 版 社:电子工业出版社
- 中图法分类:TP274
- 页码:260
- 纸张:
- 版次:01
- 开本:16开
本书基于Hadoop大数据平台,讲解大数据平台的搭建与运维、数据的采集与存储、数据的处理、数据的分析、数据的可视化等完整的大数据应用案例,不仅全面、详细地讲述Hadoop、MapReduce、HDFS、Hive、Spark和ZooKeeper等技术的相关知识,还详细介绍Hadoop集群和Hadoop HA集群的部署等内容。本书具有较强的实用性和可操作性,语言精练,通俗易懂,操作步骤描述详尽,并配有大量操作图例。
马荣飞,生于1968年,男,汉族,硕士,毕业于清华大学计算机科学与技术专业。全国技术能手、浙江工匠、台州市高端人才、国家级职业教育物联网应用技术专业教师教学团队负责人,浙江省计算机网络技术优势专业负责人。
项目1 Ubuntu系统的安装与使用 1
1.1 大数据技术与Hadoop平台生态 1
1.1.1 大数据 1
1.1.2 大数据关键技术 2
1.1.3 大数据涉及的主要软件 4
1.1.4 Hadoop平台技术的生态 4
1.2 Ubuntu系统安装 7
1.2.1 安装VMware Workstation 7
1.2.2 在虚拟机中安装Ubuntu系统 12
1.2.3 VMware快照 28
1.2.4 中英文输入法切换 30
1.2.5 安装VMware Tools 30
1.2.6 案例1-1:安装vim编辑器并使用 34
1.2.7 案例1 2:apt更新与更新源项目实践 36
1.2.8 案例1 3:安装SSH实践 39
1.3 Linux系统简介与应用 40
1.3.1 Linux系统的目录结构 40
1.3.2 超级用户——root用户 42
1.3.3 目录标记规则 43
1.3.4 案例1 4:普通用户与超级用户互转实例 43
1.3.5 案例1 5:创建与删除普通用户 44
1.3.6 案例1-6:为用户授予目录权限实例 45
1.3.7 案例1 7:修改主机名操作实践 46
1.3.8 案例1 8:目录和文件操作实践 47
1.3.9 案例1-9:文件解压缩操作实践 48
1.3.10 案例1-10:进程与端口查看命令操作实践 49
1.3.11 案例1 11:数据流重定向和管道使用操作实践 50
1.4 在Ubuntu系统中安装Eclipse项目实践 51
1.4.1 通过软件中心下载并安装Eclipse 51
1.4.2 在桌面中创建Eclipse快捷方式 53
1.5 思考与操作 53
项目2 Hadoop伪分布式模式部署 56
2.1 深入了解Hadoop 56
2.1.1 Hadoop发行版本介绍 56
2.1.2 Hadoop核心架构 57
2.1.3 Hadoop的主要应用场景 58
2.2 安装Java环境(JDK) 59
2.3 安装Hadoop实践 61
2.3.1 下载Hadoop安装文件并解压缩 61
2.3.2 配置Hadoop环境变量 62
2.3.3 配置伪分布式模式 63
2.3.4 Hadoop无法正常启动和使用的解决方法 66
2.4 思考与操作 67
项目3 分布式文件系统HDFS 69
3.1 HDFS基本知识 69
3.1.1 分布式文件系统(DFS)简介 69
3.1.2 Hadoop分布式文件系统(HDFS) 70
3.1.3 HDFS存储数据 70
3.2 使用Shell命令与HDFS进行交互操作实践 72
3.2.1 Hadoop Shell命令方式 72
3.2.2 案例3-1:目录操作实践 73
3.2.3 案例3-2:文件操作实践 74
3.2.4 案例3-3:利用Web管理界面管理HDFS 75
3.3 利用Java API编程与HDFS实现交互实践 76
3.3.1 在Eclipse中创建HDFS交互Java项目的基本步骤 76
3.3.2 在Java项目中编写Java应用程序代码 81
3.3.3 编译并运行程序与打包 83
3.3.4 练习用的代码文件 88
3.4 思考与操作 91
项目4 HBase伪分布式模式部署与使用 94
4.1 HBase介绍 94
4.2 安装HBase 95
4.3 HBase伪分布式模式部署实践 97
4.4 HBase Shell常用操作命令实践 100
4.4.1 HBase表结构形式和常用的表操作命令 100
4.4.2 案例4-1:在HBase数据库中创建表和删除表 101
4.4.3 案例4-2:HBase数据库基本操作 102
4.5 思考与操作 104
项目5 MapReduce基础编程实践 107
5.1 MapReduce介绍与基本原理 107
5.1.1 MapReduce在现实生活中的例子描述 107
5.1.2 通过案例拆解MapReduce的工作过程 108
5.1.3 MapReduce的工作过程概括 112
5.2 MapReduce编程思路 112
5.3 MapReduce编程实践:单词统计(WordCount)案例 113
5.3.1 在Java项目中添加MapReduce编程支持功能 113
5.3.2 编写程序 116
5.3.3 编译与打包及运行程序 121
5.4 MapReduce编程项目:计算学生的平均成绩 125
5.5 思考与操作 128
项目6 Hive伪分布式模式部署与使用 131
6.1 Hive的特点 131
6.2 Hive伪分布式模式部署实践 132
6.2.1 安装与配置Hive 132
6.2.2 安装与配置MySQL读写Hive元数据库 133
6.3 MySQL数据库操作 137
6.3.1 常用命令介绍 137
6.3.2 无法登录MySQL的解决方法 139
6.4 思考与操作 140
项目7 数据分析与Hive数据库操作 142
7.1 Hive操作命令介绍及实践 142
7.2 HQL中的“CASE WHEN THEN ELSE END”命令的用法 144
7.3 单词统计 147
7.4 人口收入数据综合分析 148
7.4.1 项目实现目标 149
7.4.2 数据结构分析与安全配置条件 149
7.4.3 目标实现操作 150
7.5 思考与操作 153
项目8 Spark安装与基础编程 155
8.1 Spark的安装(Python版)实践 155
8.1.1 下载Spark安装文件 156
8.1.2 安装与配置Spark 156
8.1.3 在pyspark中运行代码 157
8.1.4 Spark独立应用程序编程案例实践 158
8.2 Spark的一些基本概念 159
8.3 RDD编程操作 160
8.3.1 RDD操作的两种类型 160
8.3.2 创建RDD操作实践案例 161
8.3.3 键值对RDD的创建案例 165
8.4 从RDD到DataFrame实践 168
8.4.1 Spark SQL和DataFrame 168
8.4.2 创建样例数据文件 170
8.4.3 从JSON文件和CSV文件中读取数据生成DataFrame 171
8.4.4 从普通文本文件中读取数据生成DataFrame 172
8.5 Spark项目编程与Python可视化 175
8.5.1 Spark项目编程实践 176
8.5.2 Python可视化呈现 179
8.6 思考与操作 185
项目9 Hadoop从完全分布式到HA安装与使用 190
9.1 Hadoop HA模式介绍 190
9.1.1 Hadoop HA模式的背景 190
9.1.2 Hadoop HA模式的架构 191
9.2 安装虚拟机系统项目实践 192
9.2.1 在VMware Workstation中创建虚拟机 193
9.2.2 安装CentOS 7系统 199
9.2.3 设置网络静态IP地址 201
9.2.4 使用XShell 6登录CentOS虚拟机 204
9.2.5 预先统一安装软件命令或预先配置设置 207
9.2.6 克隆3个虚拟机 208
9.3 命名节点主机名称并设置SSH免密登录 209
9.3.1 修改各节点虚拟机主机名 209
9.3.2 实现主机名与IP地址映射 210
9.3.3 设置SSH免密登录 210
9.4 安装JDK实践 215
9.5 安装与配置ZooKeeper实践 218
9.5.1 安装ZooKeeper 218
9.5.2 启动和关闭ZooKeeper 221
9.6 配置Hadoop完全分布式集群 224
9.6.1 上传、解压缩Hadoop安装文件与配置环境变量 224
9.6.2 将Hadoop配置为完全分布式模式 225
9.7 部署Hadoop HA集群实践 229
9.7.1 编辑Hadoop HA集群配置文件 229
9.7.2 将修改后的Hadoop HA集群配置文件分发到各个节点 233
9.7.3 第一次启动Hadoop HA集群 234
9.7.4 常规启动Hadoop HA集群 239
9.7.5 Hadoop HA集群部署完成后的常规启动和关闭顺序 240
9.7.6 在Hadoop HA集群上测试WordCount程序 243
9.8 思考与操作 244