本书是高等职业教育大数据技术与应用系列教材中的一册,讲解了大数据系统运行维护过程中的各个主要任务,包括大数据生态圈、Hadoop环境搭建与运维、Hive环境搭建与基本操作、HBase环境搭建与运维、Hadoop常用组件安装等内容。本书内容详尽充实,针对每个知识点都配有相应的实验用于验证和巩固,在基础理论知识上增加了运维大数据平台实践应用知识,重点介绍了大数据系统的运维实操技能,对于培养应用型大数据平台运维人才有着很强的指导性。
龚大丰,男,1978年8月生,高级工程师,华中科技大学软件工程专业硕士,现任温州职业技术学院大数据技术与应用专业专任教师,系统分析师、信息系统项目管理师。
第1章 大数据生态圈 (1)
1.1 大数据的概念和价值 (1)
1.2 大数据的特点 (3)
1.3 大数据技术组成与生态圈 (6)
1.4 大数据的行业应用和未来发展 (9)
第2章 Hadoop环境搭建与运维 (15)
2.1 Hadoop概述 (15)
2.2 Hadoop单机模式和伪分布模式搭建 (16)
2.2.1 创建“hadoop”用户 (17)
2.2.2 准备工作 (18)
2.2.3 安装SSH、配置SSH无密码登录 (18)
2.2.4 安装Java环境 (19)
2.2.5 安装Hadoop 2 (20)
2.2.6 Hadoop单机配置 (21)
2.2.7 Hadoop伪分布式配置 (23)
2.2.8 运行Hadoop伪分布式实例 (26)
2.3 Hadoop集群模式搭建 (28)
2.3.1 创建Hadoop运行用户 (28)
2.3.2 关闭防火墙 (28)
2.3.3 配置机器名和网络 (29)
2.3.4 配置非root用户免验证登录SSH (30)
2.3.5 安装JDK (31)
2.3.6 安装Hadoop (32)
2.3.7 格式化HDFS (34)
2.3.8 启动Hadoop (35)
2.4 Hadoop HA模式介绍 (35)
2.4.1 Hadoop的HA机制 (35)
2.4.2 HA集群 (36)
2.5 Hadoop查看集群运行状态 (37)
2.6 网页查看集群 (39)
2.7 Hadoop命令的使用 (40)
2.7.1 Hadoop常用命令 (40)
2.7.2 HDFS常用命令 (40)
2.8 WordCount示例程序的运行和日志查看 (44)
2.8.1 MapReduce的工作原理 (45)
2.8.2 MapReduce框架的作业运行流程 (45)
2.8.3 WordCount示例程序 (46)
2.9 实验 (46)
2.9.1 【实验1】CentOS系统安装 (46)
2.9.2 【实验2】Hadoop单机部署 (54)
2.9.3 【实验3】Hadoop伪分布式部署 (65)
2.9.4 【实验4】Hadoop完全分布式部署 (66)
2.9.5 【实验5】Hadoop查看集群状态 (85)
2.9.6 【实验6】Hadoop基础命令的使用 (88)
2.9.7 【实验7】Hadoop示例程序WordCount的执行(Java) (91)
2.9.8 【实验8】Hadoop示例程序WordCount的执行(Python) (100)
2.9.9 【实验9】Hadoop HA模式解析 (100)
第3章 Hive环境搭建与基本操作 (102)
3.1 Hive概述 (102)
3.2 基于HDFS和MySQL的Hive环境搭建 (105)
3.3 Hive Shell (115)
3.4 Hive SQL语句的使用 (119)
3.5 Hive函数的使用 (122)
3.6 Hive分区表和桶表的创建 (129)
3.7 实验 (133)
3.7.1 【实验10】Hive环境搭建 (133)
3.7.2 【实验11】Hive SQL语句操作 (134)
3.7.3 【实验12】Hive函数的使用 (135)
3.7.4 【实验13】Hive分区表的创建 (136)
第4章 HBase环境搭建与运维 (138)
4.1 HBase概述 (138)
4.2 HBase单机模式和伪分布模式部署 (139)
4.3 HBase完全分布模式部署 (143)
4.4 HBase查看集群运行状态 (146)
4.5 HBase Shell的使用 (149)
4.6 实验 (155)
4.6.1 【实验14】HBase单机模式和伪分布模式部署 (155)
4.6.2 【实验15】HBase分布式部署 (158)
4.6.3 【实验16】HBase查看集群运行状态 (159)
4.6.4 【实验17】HBase Shell命令的使用 (160)
第5章 Hadoop常用组件安装 (164)
5.1 Hadoop常用组件概述 (164)
5.2 ZooKeeper环境部署 (175)
5.3 Kafka环境部署 (178)
5.4 Storm环境部署 (183)
5.4.1 单机环境部署 (183)
5.4.2 分布式环境部署 (185)
5.5 Flume环境部署 (187)
5.6 Spark环境部署 (189)
5.6.1 单机环境部署 (189)
5.6.2 分布式环境部署 (190)
5.7 实验 (194)
5.7.1 【实验18】ZooKeeper环境部署 (194)
5.7.2 【实验19】Kafka环境部署 (196)
5.7.3 【实验20】Storm环境部署 (200)
5.7.4 【实验21】Flume环境部署 (203)
5.7.5 【实验22】Spark环境部署 (204)