Hadoop大数据集群部署及数据存储项目化教程(张立辉)
定 价:48 元
- 作者:张立辉 主编
- 出版时间:2024/4/1
- ISBN:9787122448583
- 出 版 社:化学工业出版社
- 中图法分类:TP274
- 页码:212
- 纸张:
- 版次:01
- 开本:16开
本书从实用角度出发,围绕Linux 操作系统和Hadoop 集群部署,从虚拟机安装入手,结合典型项目和案例,较为全面地介绍了大数据开发技术平台Hadoop 及其生态系统的相关知识。主要内容包括大数据技术中的Hadoop 集群部署、HDFS、MapReduce、Hive、HBase和Sqoop 等。全书所有知识点都结合具体的编程示例讲解,重要知识点配有视频讲解。
本书可作为高等职业院校大数据技术、软件技术、计算机网络技术、人工智能技术等专业的教材,也可作为大数据爱好者的参考书,同时也可作为企业培训教材。
第1章 Hadoop 概述 1
1.1 大数据认知 1
1.1.1 大数据的定义 1
1.1.2 大数据的应用领域 2
1.1.3 大数据的特征 4
1.1.4 大数据的技术架构 5
1.2 Hadoop 认知 7
1.2.1 Hadoop 的发展史 7
1.2.2 Hadoop 的特点 9
1.2.3 Hadoop 的生态系统 10
1.2.4 Hadoop 的核心架构 11
1.3 Hadoop 的安装和配置 12
1.3.1 VMWare 的安装 12
1.3.2 Ubuntu 系统的安装 13
1.3.3 Linux 常用命令 15
1.3.4 JDK 安装和配置 16
1.3.5 Hadoop 的安装 18
课后练习 19
第2章 Hadoop 集群部署 20
2.1 Linux 环境设置 20
2.1.1 创建用户(组) 20
2.1.2 Windows 和Linux 系统间文件传输 22
2.1.3 更新apt 24
2.1.4 vim 编辑器的应用 25
2.1.5 网络配置 25
2.2 Hadoop 伪分布式搭建 27
2.2.1 环境变量的配置 27
2.2.2 SSH 安装 28
2.2.3 core-site.xml 配置文件 30
2.2.4 hdfs-site.xml 配置文件 30
2.2.5 Hadoop 伪分布式运行实例 31
2.3 Yarn 认知 33
2.3.1 初识Yarn 33
2.3.2 Yarn 基本服务组件 33
2.3.3 Yarn 执行过程 34
2.4 Hadoop 分布式搭建 35
2.4.1 部署前准备 35
2.4.2 网络配置 37
2.4.3 配置文件的设置 37
2.4.4 分布式部署 38
课后练习 39
第3章 分布式文件系统HDFS 41
3.1 HDFS 认知 42
3.1.1 HDFS 的了解 42
3.1.2 HDFS 的特性 43
3.1.3 HDFS 的设计思想 44
3.1.4 HDFS 的核心概念 44
3.2 HDFS 常用shell 命令 47
3.2.1 HDFS 查看命令 47
3.2.2 HDFS 目录操作命令 48
3.2.3 文件操作 49
3.3 HDFS 基础编程 52
3.3.1 用HDFS API 上传本地文件 52
3.3.2 用HDFS API 创建HDFS 文件 54
3.3.3 用HDFS API 读取和写入文件 55
3.3.4 用HDFS API 创建HDFS 目录 56
3.3.5 用HDFS API 查找文件所在位置 57
3.4 HDFS 工作机制 58
3.4.1 HDFS 写数据流程 58
3.4.2 HDFS 读数据流程 59
3.4.3 NameNode 工作机制 60
3.4.4 DataNode 工作机制 61
3.5 HDFS 客户信息管理 62
3.5.1 环境搭建 62
3.5.2 写入客户信息 66
3.5.3 读取客户信息 69
课后练习 69
第4章 MapReduce 编程 71
4.1 MapReduce 的工作原理 71
4.1.1 MapReduce 的由来和特点 72
4.1.2 MapReduce 执行过程 73
4.1.3 MapTask 执行过程 75
4.1.4 Reduce 执行过程 76
4.1.5 Shuffle 执行过程 77
4.2 MapReduce 程序编写 78
4.2.1 开发工具IDEA 的安装 78
4.2.2 MapReduce 输入/输出类型 81
4.2.3 MapReduce 输入处理类 81
4.2.4 MapReduce 输出处理类 83
4.2.5 入门案例—WordCount 84
4.3 统计网站最大访问次数 87
4.3.1 实体类 87
4.3.2 Mapper 类 88
4.3.3 Reducer 类 89
4.3.4 项目驱动类 90
课后练习 91
第5章 MapReduce 高级编程 92
5.1 MapReduce 高级开发一 92
5.1.1 Combiner 编程 93
5.1.2 Partitioner 编程 94
5.1.3 RecordReader 编程 97
5.2 MapReduce 高级开发二 102
5.2.1 MapReduce 连接操作 103
5.2.2 MapReduce 排序操作 109
5.2.3 MapReduce 多文件联合查询 111
5.3 实现课程名称和成绩的二次排序 115
5.3.1 实体类 115
5.3.2 Mapper 类 116
5.3.3 Reducer 类 117
5.3.4 项目驱动类编写 117
课后练习 118
第6章 Hive 数据仓库 120
6.1 什么是Hive 121
6.1.1 Hive 简介 121
6.1.2 为什么使用Hive 121
6.1.3 Hive 的优缺点 122
6.1.4 Hive 体系结构 122
6.1.5 Hive 设计特征 123
6.2 Hive 安装 124
6.2.1 伪分布式安装与配置Hive 124
6.2.2 安装与配置MySQL 126
6.3 Hive 基本操作 128
6.3.1 Hive 数据类型 128
6.3.2 数据库操作 129
6.3.3 内部表操作 131
6.3.4 外部表操作 139
6.3.5 分区表操作 139
6.3.6 分桶表操作 143
6.3.7 Hive 数据操作 144
6.4 实现购物用户数据清洗项目 148
6.4.1 导入数据 148
6.4.2 数据分析 149
6.4.3 数据导出 150
课后练习 150
第7章 HBase 数据库 152
7.1 HBase 认知 153
7.1.1 HBase 简介. 153
7.1.2 HBase 体系结构 153
7.1.3 HBase 写数据流程 154
7.1.4 HBase 读数据流程 155
7.2 HBase 安装 156
7.2.1 下载软件 156
7.2.2 伪分布式安装与配置 157
7.3 HBase shell 操作命令 159
7.3.1 HBase 数据模型 159
7.3.2 数据表空间操作 161
7.3.3 数据表操作 164
7.3.4 数据操作 170
7.4 HBase API 操作 174
7.4.1 HBase 常用的API 175
7.4.2 Configuration 对象 175
7.4.3 HTable 句柄创建 178
7.4.4 HBase 数据的CRUD 操作 179
7.5 学生成绩管理 187
7.5.1 学生成绩表数据准备 187
7.5.2 学生成绩表设计分析 188
7.5.3 学生成绩表代码实现 189
课后练习 191
第8章 Sqoop 导入和导出 193
8.1 概述 194
8.1.1 Sqoop 产生背景 194
8.1.2 Sqoop 是什么 194
8.1.3 为什么选择 Sqoop 194
8.2 工作原理 195
8.2.1 导入机制 195
8.2.2 导出机制 196
8.3 安装 196
8.3.1 前提准备 196
8.3.2 下载Sqoop 197
8.3.3 安装Sqoop 198
8.3.4 配置Sqoop 199
8.3.5 MySQL 驱动包 199
8.3.6 验证Sqoop. 200
8.4 Sqoop 的基本命令 200
8.4.1 基本操作 200
8.4.2 示例 200
8.5 数据导入和导出 208
8.5.1 从RDBMS 导入HDFS 中 208
8.5.2 MySQL 数据导入Hive 中 209
8.5.3 MySQL 数据导入HBase 209
课后练习 210
参考文献 212