《Spark大数据实时分析实战》分为六个项目,通过真实大数据实时分析项目的导入,引导读者完成大数据实时分析平台Spark的搭建,通过对基于Hadoop生态圈中Yarn资源调度框架,搭建Spark日志管理系统,搭建Kafka分布式消息系统,在工作中实现使用SparkStreaming实时读取Kafka中的数据进行实时处理。
《Spark大数据实时分析实战》适用于大数据技术与应用、数据科学与大数据技术等电子信息类专业教学的教材,也可作为工程技术人员的参考书。
近年来,智能设备和智能应用迅猛发展,极大地方便了人们的工作和日常生活,同时,也产生了大量的数据。这些应用和服务的成功得益于大数据和日益完善的实时分析技术。大数据实时分析技术的出现,可以对这些数据进行快速的分析,让决策者能够迅速地把握用户的关键需求,并能够及时响应用户的需求变化。未来几年,将有数以亿计的智能设备接人互联网,从智能手机、台式机、汽车到智能家居,都会接入互联网。未来的数据分析将对实时性要求越来越高。
针对大数据的迅猛发展,本书结合实际应用案例,选用高性能的Spark技术作为大数据实时分析的工具,介绍了实时大数据分析的实现过程,为读者提供了快速安装、搭建大数据分析集群和进行实时数据分析所需的技术。
本书采用项目驱动的编写方式,精心设计了6个项目,覆盖了Spark大数据实时分析技术所涉及的基础技术介绍、集群搭建,以及日志服务器搭建等知识技能点。书中深入浅出地介绍了Spark技术的基本原理、集群的构建与安装、基于Yam的Spark集群搭建、Spark日志服务器的搭建、Kafka集群的构建与安装,并通过案例对Kafka集群进行了测试。具体内容为:
项目一从数据存储技术、分析技术、批数据和实时数据等数据分析背景知识人手,介绍了实时数据处理的价值、Spark实时数据分析技术。
项目二通过具体的案例操作,详细介绍了Spark集群规划、安装准备、集群搭建、验证及客户端应用的搭建。
项目三通过案例介绍了基于Yarn的Spark集群的搭建、配置和验证的方法。
项目四介绍了Spark日志服务器的配置及验证日志服务器的方法。
项目五和项目六通过案例介绍了集群搭建、集群规划、安装配置,并对Kafka集群进行了测试。
本书由重庆电子工程职业学院付雯、聂强担任主编,重庆电子工程职业学院武春岭、李俊翰、王宁忆、李清莲、谭博文及潍坊职业学院郑伟担任副主编,来自重庆课外岛科技发展有限公司的文红亚高级工程师也参与了本书的部分编写工作。
项目一 初识Spark技术
任务1.1 数据处理系统
1.1.1 数据存储技术
1.1.2 数据分析技术
1.1.3 批数据和实时数据
1.1.4 数据价值挖掘
任务1.2 实时数据处理
1.2.1 实时数据的价值
1.2.2 实时数据处理技术
1.2.3 Spark实时数据处理
项目二 Spark集群的构建与安装
任务2.1 Spark集群搭建
2.1.1 平台选择
2.1.2 软件选择
2.1.3 Spark集群构建流程
任务2.2 Spark集群规划
2.2.1 Spark集群节点划分
2.2.2 软件要求
2.2.3 网络拓扑结构规划
任务2.3 Spark安装准备
2.3.1 JDK安装
2.3.2 节点间的配置
2.3.3 Spark安装包下载
任务2.4 Spark集群搭建
2.4.1 配置Master节点
2.4.2 配置Worker节点
2.4.3 分发安装包
2.4.4 启动集群
任务2.5 验证Spark
2.5.1 验证Spark进程
2.5.2 验证WEBUI界面
2.5.3 验证集群功能
任务2.6 Spark客户端搭建
2.6.1 客户端介绍
2.6.2 客户端搭建及使用
项目三 Spark基于Yarn搭建
任务3.1 基于Yarn构建介绍
3.1.1 基于Yarn搭建环境配置
3.1.2 Hadoop集群
3.1.3 启动Hadoop集群
3.1.4 验证Hadoop集群节点
任务3.2 基于Yam搭建
3.2.1 节点划分配置
3.2.2 配置Spark on Yarn
3.2.3 验证Spark on Yarn
项目四 日志服务器搭建
任务4.1 日志服务器配置
4.1.1 HDFS配置
4.1.2 Spark配置
4.1.3 启动日志服务器
4.1.4 查看日志
任务4.2 验证日志服务器
4.2.1 Spark-Shell介绍
4.2.2 查看运行日志
4.2.3 启动日志服务器
4.2.4 查看日志
……
项目五 Kafka集群的构建与安装
项目六 Kafka集群测试