定 价:38 元
丛书名:高等院校信息类新专业规划教材华信乾坤培训推荐教材
- 作者:余挺主编
- 出版时间:2022/1/1
- ISBN:9787563565849
- 出 版 社:北京邮电大学出版社
- 中图法分类:TP274
- 页码:205页
- 纸张:胶版纸
- 版次:1
- 开本:16开
本书系统梳理总结ApacheHadoop大数据相关技术,介绍大数据存储、并行计算、数据处理等内容,帮助读者形成对大数据知识体系及其应用领域的轮廓性认识,为读者在大数据领域进行更深入的学习和研究奠定基础、指明方向。
2012年后,大数据(BagData)一词越来越多地被提及,人们用它来描述和定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。
随着云时代的来临,大数据吸引了越来越多的关注,数据正在迅速膨胀并变大,它决定着企业的未来发展,虽然很多企业可能并没有意识到数据爆炸性增长带来问题的隐患,但是随着时间的推移,人们将越来越多地意识到数据对企业的重要性,大数据通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系数据库时用于分析会花费过多的时间和金钱,大数据分析常和云计算联系到一起,因为实时的大型数据分析需要像MapReduce一样的计算框架来向数十、数百甚至数千台计算机分配工作。
本书主要向读者介绍一种大规模数据处理的开源框架——Hadoop生态系统。在深入探讨Hadoop的技术细节和应用之前,有必要花时间来了解Hadoop及其取得巨的历史背景,Hadoop并不是凭空想象出来的,它的出现源于人们创建和使用的数据量的爆炸性增长。在此背景下,不仅庞大的跨国公司面临着海量数据处理的困难,小型创业公司同样如此。与此同时,一些变革改变了软件和系统的部署方式,除了传统的基础设施,人们开始使用甚至偏好于分布式资源处理框架。
本书揭开了Apache Hadoop的神秘面纱,着重讲解了如何应用Hadoop和相关技术搭建工作系统并完成任务。本书共分为9章:第pan>章讲解Hadoop的生态系统,以及在行业中的应用场景;第2章讲解Hadoop分布式文件系统括NameNode和DataNode节点、机架感知策略、HDFS Shell 命令等;第3 章讲解MapReduce 并行计算框架,让读者了解MapReduce的工作原理:第4章讲解HBase分布式数据库,讲述了HBase 如何实现数据存储、HBase 的节点类型、HBase API开发:第5章讲解Hive 数据仓库,介绍了Hive 的架构、HQL语法结构、Hive 数据查询案例:第6章讲解Kafka 消息系统,介绍了Kafka消息系统的工作原理、Kafka消息细节处理等;第7章讲解Flume 日志处理系统,介绍了Flume的日志处理技术,Flume 如行流计算技术处理:第8章讲郁Zookeper分布式协调系统,帮助读者理解如何实现Hadoop组件之问的协调控制:第9意讲解 Sagoop数据迁移工具,涵盖了有效使用Sqoop处理实际场景中的数据迁移工作。
通过阅读本书,读者将迅速掌握编程概念,打下坚实的基础,并养成良好的习惯。此后,读者就可以开始了解其他大数台技术,如Spark内存计算框架、Flink流扯一体化处台,并能够更轻松地掌握大数据技术。
第1章 .Hadoop大数台概述
1.1 Hadoop大数台起源
1.1.1 Hadoop发展历程
1.1.2 Hadoop核心组件
1.1.3 Hadoop与云计算的关系
1.2 Hadoop集群搭建和简单应用
1.2.1 集群服务器规划
1.2.2 Hadoop软件安装
1.2.3 Hadoop命令行的基本使用
本章小结
第2章 Hadoop分布式文件系统
2.1 HDFS概述
2.1.1 HDFS的概念和特性
2.1.2 HDFS的局限性
2.1.3 HDFS保证可靠性的措施
2.1.4 单点故障(单点失效)问题
2.2 HDFS Shell命令
2.2.1 常见Shell命令
2.2.2 其他HDFS Shell命令
2.3 对HDFS的深入理解
2.3.1 HDFS的优点和缺点
2.3.2 HDFS的能
2.4 HDFS读写过程
2.4.1 HDFS写入数据过程
2.4.2 HDFS读取数据过程
2.5 分布式集群中HDFS的各种角色
2.5.1 NameNode的可靠性
2.5.2 DataNode的可靠性
2.5.3 元数据的CheckPoint
本章小结
第3章 MapReduce并行计算框架
3.1 MapReduce概述
3.1.1 为什么需要MapReduce
3.1.2 MapReduce程序运行演示
3.1.3 WordCount.java源码分析
3.i.4编写自己的WordCount程序
3.2 MapReduce的核心运行机制
3.3 MapReduce的多Job串联和全局计数器
3.3.1 MapReduce的多Job串联
3.3.2 全局计数器
3.3.3 计数器该如何使用
3.3.4 MapReduce框架Partitioner分区
3.3.5 MapReduce框架Combiner分区
3.4 YARN的资源调度
本章小结
第4章 HBase分布式数据库
4.1 HBase数据库概述
4.1.1 HBase数据库的使用场景
4.1.2 HBase数据库的安装
4.2 HBase数据库物理架构
4.2.1 HBase集群节点类型
4.2.2 HBase数据存储
4.3 HBase数据库r/> 4.3.1 HBase命令行的启动
4.3.2 HBase表的r/> 4.3.3 HBase表中数据的r/> 4.4 HBase数据库的APIr/> 本章小结
第5章 Hive数据仓库
5.1 Hive简介
5.1.1 什么是Hire
5.1.2 Hive的数据组织
5.1.3 Hive的表类型
5.2 Hive的安装与使用
5.2.1 Hive的安装配置
5.2.2 Hive的基本使用
5.2.3 Hive的连接方式
5.3 Hive数据结构
5.3.1 Hive数据类型
5.3.2 Hive数据存储格式
5.3.3 数据格式
5.4 Hive数据r/> 5.4.1 管理库
5.4.2 表r/> 5.5 Hive应用案例
5.5.1 统计单月访问次数访问次数
5.5.2 学生课程成绩统计
本章小结
第6章 Kafka消息系统
6.1 Kafka消息系能
6.1.1 Kafka概述
6.1.2 Kafka组件架构
6.1.3 Kafka软件安装
6.1.4 Kafka服务的启动
6.2 Kafka组件术语
6.2.1 主题与日志
6.2.2 Kafka H志处理
6.2.3 消息副本
6.2.4 数据处理场景
6.2.5 生产者
6.2.6 消费者
本章小结
第7章 Flume日志处理系统
7.1 F、lume的简介
7.1.1 Flume概述
7.1.2 Flume NG的介绍
7.1.3 Flume的部署类型
7.2 F、lume的安装与配置
7.2.1 Flume的下载与安装
7.2.2 Flume Sources描述
7.3 Flume代理流配置
7.3.1 单配置
7.3.2 单代理多流配置
7.3.3 配置多代理流程
7.3.4 多路复用流
本章小结
第8章 ZooKeeper分布式协调系统
8.1 分布式协调技术概述
8.2 ZooKeeper概述
8.3 ZooKeeper监听机制
8.3.1 Watch触发器
8.3.2 监听原理
8.3.3 ZooKeeper应用举例
8.4 ZooKeeper的安装与集群配置
8.4.1 ZooKeeper的安装
8.4.2 使用ZooKeeper命令的简单操作步骤
本章小结
第9章 Sqoop数据迁移工具
9.1 Sq0能概述
9.1.1 Sqoop软件介绍
9.1.2 Sqoop软件安装
9.2 Sqoop命令r/> 9.2.1 Sqoop的基本命令
9.2.2 Sqoop的数据导入
9.2.3 将MysQL数据库中的表数据导入Hive
9.2.4 将MysQL数据库中的表数据导入HBar/> 本章小结
参考文献
第一章
Hadoop大数台概述
从大数据自身的技术体系来说,大数据所有的技术都紧紧围绕数据价值化来展开,企业对大数据的利用当前也逐渐从传统的数据采集和分析向数据生产转变,相信在工业互联网时代这一趋势会越发明是。
对于企业来说,借助于大数据来降低运营成本是一个重要的诉求,而通过大数据技术来降低运营成本的出发点多,不同行业企业要结合自身的实际情况行方案规划。当前很多企业利用大数据来构建自己的价值化考核体系,这是降耗提效的好方式。
大数据时代,数据的应用已经渗透到各行各业,但是传统的数据挖据和分析已经不能满足行业发展的需求,大数据技术为企业业务分析和行业发展带来了新的思维角度,将会充分激发数据对社会发展的影响和推动。如何有效利用大数台?接下来我们就一起来了解Apache Hadoop大数据生态系统,
1.1 Hadoop大数台起源
Hadoop是Hadoop项目创建者Doug Cutting儿子的一只玩具的名字。他的儿子一直称呼一只黄色的大象玩具为Hadoop,这刚好满足Cutting的命名需求——简短、容易拼写和发
音、毫无意义、不会在别处被使用,于是Hadoop就诞生了。Hadoop的发行版本有很多,有华为发行版、星环发行版、Intel发行版、Cloudera发行版(CDH).MapR版本以及Horton Works版本等。所有发行版本都是基于Apache Hadoop衍生出来的,产生这些版本的原因可归结为
Apache Hadoop的开源协议;任何人都可以对行修改,并作为开源或商业产品发布和销售。
1.1.1 Hadoop发展历程
1.Hadoop大数台的起源
①Hadoop早起源于Nutch项目,Nutch 的设计目标是构建一个大型的搜索引聚括网页抓取,索引、查能,但随着抓取网更数量的增加,其遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。
②从2003年开始,Google陆续发表的3篇论文为该问题提供了可行的解决方案。
·分布式文件系统(DFS):可用于处理海量网页的存储问题。
·分布式计算框架MapReduce:可用于处理海量网页的索引计算问题。
·Big Table分布式数据库:OLTP(联机事务处理,On-Line Transaction Processing)用于执行增、删、改操作,OLAP(联机分析处理,On-Line Analysis Processing)用于执行查询操作。
(③Nutch的开发人员完成了相应的开源实现HDFS和MapReduce,并将其从Nutch中剥离出来,成为独立项目Hadoop。直到2008年pan>月,Hadoop成为Apache项目,迎来了快速发展期。
2.Hadoop官网
我们可以通过 Hadoop官网http://hadoop.apache.org/来学习Hadoop 的核心技术。
Hadoop大数台的处理主要就是存储和计算,我们安装Hadoop集群,目的是实现两个核
YARN和一个分布式文件系统HDFS.其实MapReduce就是运行在
YARN之上的应用。
1.1.2Hadoop核心组件
Hadoop是Apache旗下的一套开源软台,Hadoop主要提能是:利用服务器集群,根据用户自定义的逻辑对海量数行分布式处理。
1.Hadoop的概念
①狭义上:属于Apache基全会的一个项目Apache Hadoop.
②广义上:以Hadoop为核心的整个大数据处理体系括计算和存储能力。
2.Hadoop的核心组件
①Hadoop Common:支持其他Hadoop模块的常用工具。
②Hadoop分布式文件系统(HDFS):一种分布式文件系统,可提供对应用程序数据的高吞吐量访问。
③Hadoop YARN:作业调度和集群资源管理的框架。
④Hadoop MapReduce:一种用于井行处理大型数据集的基于YARN的系统。
……