Hadoop是当前热门的大数据处理与分析平台。《Hadoop大数据开发基础项目化教程》将大数据平台相关内容划分为8个项目,分别是大数据时代、Hadoop基础环境、Hadoop环境搭建、分布式存储HDFS、MapReduce分布式编程、Hadoop数据仓库Hive、Hadoop数据库HBas、协调系统Zookeeper,每个项目按照知识点拆解分为相关的多个任务,每个任务都有详细的操作步骤实现,由浅入深、将理论和实践相融合,循序渐进地介绍Hadoop集群的相关知识点,使读者能够学以致用,融会贯通,快速理解和掌握。
本书可作为高职高专院校大数据技术及应用等计算机相关专业的教材使用,也适用于应用型本科院校数据科学与大数据、大数据管理与应用等专业的师生使用,还可供大数据零基础的初学者入门和进阶、大数据相关领域的广大程序设计人员参考。
陈秀玲,计算机专业教授,1999年7月毕业于哈尔滨理工大学,同年就职于黑龙江职业学院,从事计算机相关专业的教学工作至2019年8月。由2019年8月至今在重庆化工职业学院从事大数据应用相关专业的教学工作。近十年共计完成课题20项(其中主持省教育厅、省科技处课题2项、院级重点课题1项,参与各类课题各4项,主持或参与职教学会、高教学会、院级一般课题13项),并且全部结题。将研究成果和教学经验整理发表论文十余篇、主编或编写教材共计16部,申请实用新型专利2项,参与专利5项。主讲《C语言》、《C++》、《Java语言》、《Python》、《MySQL》、《VB程序设计》、《SQL Server数据库》、《软件工程》、《软件测试》、《操作系统》、《IT项目经理》、《VFP数据库》等多门课程。
项目1 大数据时代 1
任务1 认识大数据 1
1.1.1 大数据定义 2
1.1.2 大数据核心特征 2
1.1.3 大数据体系架构 3
任务2 大数据关键技术 4
1.2.1 大数据技术分类 4
1.2.2 大数据存储基础 5
1.2.3 大数据与云计算、物联网 6
任务3 大数据的应用 6
1.3.1 大数据典型应用—— 霍廷 6
1.3.2 大数据典型应用——亚马逊 7
1.3.3 大数据典型应用——城管通 7
1.3.4 大数据典型应用——智能公交站牌 7
1.3.5 大数据典型应用——金融分析 7
1.3.6 大数据典型应用——医疗决策 7
1.3.7 大数据典型应用——农业防稻瘟 8
1.3.8 大数据典型应用——社会治理 8
1.3.9 大数据典型应用——疫情阻击 8
习题 8
项目2 Hadoop基础环境 10
任务1 熟悉Linux 10
2.1.1 Linux简介 11
2.1.2 Linux发行版 11
2.1.3 Linux文件 11
2.1.4 Linux常用命令应用 12
任务2 认识Hadoop 15
2.2.1 Hadoop简介 15
2.2.2 Hadoop发展史 16
2.2.3 Hadoop发行版本 16
2.2.4 Hadoop基本概念 17
2.2.5 Hadoop的优点 18
2.2.6 Hadoop基本使用 19
任务3 准备Linux环境 20
2.3.1 虚拟机简介 20
2.3.2 VMware虚拟机 20
2.3.3 安装虚拟机 20
任务4 Hadoop基础环境搭建 21
2.4.1 Hadoop核心知识 21
2.4.2 Hadoop生态社区 22
2.4.3 安装主机master 24
2.4.4 拍快照保留历史数据 28
2.4.5 更改主机名称 29
2.4.6 设置共享文件夹 32
2.4.7 安装Java并配置环境 35
任务5 Notepad++实现共享编辑 37
2.5.1 Notepad++简介 37
2.5.2 下载并编辑Notepad++ 37
2.5.3 实现远程连接Linux 39
习题 43
项目3 Hadoop环境搭建 45
任务1 Hadoop单节点环境搭建 45
3.1.1 单节点基础 46
3.1.2 单节点安装 46
3.1.3 单节点配置环境及检验 47
任务2 Hadoop伪分布式环境搭建 49
3.2.1 伪分布式环境基础 49
3.2.2 伪分布式环境安装 51
3.2.3 伪分布式环境配置及测试 53
任务3 Hadoop完全分布式环境搭建 60
3.3.1 完全分布式环境基础 61
3.3.2 完全分布式环境安装 62
3.3.3 完全分布式环境配置 72
任务4 使用Xshell远程终端模拟器 78
3.4.1 Xshell简介 78
3.4.2 Xshell特点 78
3.4.3 Xshell下载和安装 78
3.4.4 Xshell远程连接虚拟机 79
任务5 使用MobaXterm终端软件 83
3.5.1 MobaXterm简介 83
3.5.2 MobaXterm特点 84
3.5.3 MobaXterm下载并安装 84
3.5.4 使用MobaXterm连接虚拟机 85
习题 88
项目4 分布式存储HDFS 90
任务1 HDFS的组成与工作机制 90
4.1.1 HDFS简介 91
4.1.2 机架感知与副本冗余存储策略 91
4.1.3 HDFS体系结构 92
4.1.4 NameNode工作原理 93
4.1.5 查看NameNode格式化后的数据文件 94
任务2 HDFS数据操作 96
4.2.1 HDFS shell简介 96
4.2.2 HDFS用户命令 97
4.2.3 启动并查看HDFS进程 97
4.2.4 借助浏览器查看 98
4.2.5 HDFS管理员命令 99
4.2.6 HDFS完成数据文件的简单操作 100
4.2.7 使用HDFS管理员命令完成相关服务操作 102
任务3 创建HDFS项目 103
4.3.1 IDEA开发工具使用 103
4.3.2 IDEA安装 104
4.3.3 借助IDEA创建Maven项目 107
任务4 HDFS的文件读写 109
4.4.1 HDFS文件读写流程 110
4.4.2 启动Hadoop进程 111
4.4.3 客户端向HDFS写文件 112
4.4.4 客户端向HDFS读文件 114
习题 115
项目5 MapReduce分布式编程 117
任务1 认识MapReduce 117
5.1.1 MapReduce介绍 117
5.1.2 Wordcount程序体验 118
任务2 MapReduce编程模型 124
5.2.1 MapReduce 设计构思和框架结构 124
5.2.2 MapReduce 编程规范 126
5.2.3 编写自己的单词统计程序 126
任务3 MapReduce案例实战—— 去重 137
5.3.1 数据去重思想 137
5.3.2 MapReduce数据去重程序编写 138
任务4 MapReduce案例实战—— 排序 145
5.4.1 MapReduce数据排序 145
5.4.2 Shuffle工作原理 146
任务5 MapReduce案例实战—— Map端join 153
5.5.1 Map端join的使用场景 154
5.5.2 Map端join的执行流程 154
任务6 MapReduce优化 162
5.6.1 资源相关参数 162
5.6.2 容错相关参数 163
5.6.3 效率与稳定性参数 163
习题 163
项目6 Hadoop数据仓库Hive 165
任务1 Hive环境搭建 165
6.1.1 Hive简介 166
6.1.2 Hive优点 166
6.1.3 安装Mysql 166
6.1.4 Mysql基本应用 167
6.1.5 安装Hive 173
6.1.6 配置Hive环境 174
6.1.7 启动Hive 177
任务2 Hive数据库基本操作 178
6.2.1 数据库相关知识 179
6.2.2 数据库操作 179
任务3 Hive表基本操作 181
6.3.1 表的相关知识 181
6.3.2 Hive内置函数 182
6.3.3 Hive元数据存储 182
6.3.4 表操作 184
习题 189
项目7 Hadoop数据库HBase 190
任务1 HBase安装配置基础 190
7.1.1 HBase简介 191
7.1.2 HBase发展历史 191
7.1.3 HBase基本概念 191
7.1.4 HBase特点 192
7.1.5 HBase安装前的准备 193
任务2 HBase多种模式安装 195
7.2.1 HBase安装模式 195
7.2.2 HBase常用命令 195
7.2.3 HBase伪分布式安装及配置 196
7.2.4 HBase完全分布式安装及配置 201
任务3 HBase创建用户表 205
7.3.1 HBase数据模型 205
7.3.2 HBase存储机制 206
7.3.3 HBase存储架构 206
7.3.4 HBase表的基本命令 207
7.3.5 创建用户表 207
任务4 操作表信息 209
7.4.1 对表的操作命令 209
7.4.2 增加表记录 209
7.4.3 查看表信息 210
7.4.4 修改表结构 211
7.4.5 更新表记录 213
7.4.6 删除记录/表 214
习题 215
项目8 协调系统Zookeeper 216
任务1 Zookeeper基础知识 216
8.1.1 Zookeeper概述 217
8.1.2 Zookeeper基本概念 217
8.1.3 Zookeeper应用场景 218
任务2 Zookeeper安装基础 218
8.2.1 Zookeeper安装模式 218
8.2.2 Zookeeper角色 219
8.2.3 Zookeeper常用命令 219
8.2.4 Zookeeper安装前准备 220
任务3 Zookeeper多种模式安装 222
8.3.1 Zookeeper配置中的参数 222
8.3.2 单节点模式安装及配置 222
8.3.3 伪集群模式安装及配置 227
8.3.4 完全分布式模式安装及配置 232
习题 235
参考文献 237