本书系统介绍了大数据基础知识和相关技术,全书分为大数据概述篇、大数据存储与管理篇、大数据采集与预处理篇、大数据分析与挖掘篇、大数据平台Hadoop实践与案例分析篇。全书共15章,主要内容包括大数据基本概念、大数据存储与管理概念及技术、大数据采集及预处理技术、大数据计算模式、大数据分布式并行处理框架Hadoop、大数据分布式文件系统HDFS、大数据分布式数据库系统HBASE、大数据Hadoop平台操作实践及具体大数据预测应用案例分析。
前言
随着大数据时代的来临,大数据相关概念和技术被人们广泛关注。目前,大数据技术已被广泛应用于各行各业。它对人们的思维模式及科学研究方法有深远影响,已被列为国家重大发展战略之一。社会各界对具有大数据专业素养的高级人才求贤若渴。鉴于此,国内外一些高校先后开设“数据科学与大数据”专业,旨在培养具备大数据技术的高级人才。
为满足相关人员学习大数据相关技术的需求,我们在总结近几年大数据技术课程教学经验和项目成果的基础上,引入中科曙光XData大数据相关技术及应用案例,从理论结合实践的角度,将大数据基本概念与大数据技术相结合,精心组织设计并完成了本书的编写。
本书全面而系统地介绍了大数据基础知识和相关技术。全书分为大数据基础、大数据存储与管理、大数据采集与预处理、大数据分析与挖掘和大数据平台Hadoop实践与应用案例5篇(16章),主要内容包括大数据基本概念,大数据存储与管理概念及技术,大数据采集与预处理技术,大数据平台Hadoop基础,大数据分布式文件系统HDFS,大数据分布式数据库系统HBase,大数据分布式数据仓库系统Hive,大数据MapReduce计算模型,大数据Spark计算模型,大数据MapReduce基础算法,大数据关联分析、分类、聚类典型数据挖掘算法,大数据平台Hadoop操作实践,大数据预测应用案例分析,以及曙光XData大数据平台架构、关键技术及其应用案例。全书提供了大量应用实例,每章后附有习题。本书特色在于将大数据概念、技术及应用融合在一起,便于读者理解大数据基本概念,更快掌握大数据前沿技术及其应用。
□□篇大数据基础。本篇着重介绍大数据基本概念和大数据Hadoop平台组件,旨在帮助读者正确理解大数据的核心概念及其应用技术,为后续章节的学习奠定基础。本篇包括两章。
□□章主要介绍了大数据产生的背景及发展历程,大数据对科学研究、思维模式的影响,大数据的4V特征,大数据在科研、交通、通信、医疗、金融、制造、体育、个性化生活、安全等领域的应用; 并简要介绍了大数据框架体系,大数据关键技术——数据采集与预处理技术、数据存储和管理技术、数据分析与挖掘技术、数据可视化技术、数据安全保护技术,大数据支撑技术——云计算、物联网和机器学习等。
第2章主要介绍了大数据平台Hadoop基础,包括Hadoop的项目来源、发展历程、主要用途、分布式存储和并行计算基本原理,以及对Hadoop平台核心组件(HDFS、MapReduce、ZooKeeper、Yarn、HBase、Hive、Spark、Mahout等)的简要描述。
第二篇大数据存储与管理。本篇着重介绍大数据存储与管理的基本概念和常用的大数据分布式文件系统HDFS、大数据分布式数据库系统HBase、大数据分布式数据仓库系统Hive,旨在帮助读者正确理解大数据存储与管理的核心概念和相关软件技术。本篇包括4章。
第3章主要介绍了大数据存储与管理的基本概念和技术,包括数据管理技术发展回顾、大数据的数据类型、分布式系统基础理论和NoSQL数据库的兴起,以及与大数据存储和管理密切相关的分布式存储技术、虚拟化技术和云存储技术。
第4章主要介绍了大数据分布式文件系统HDFS,包括HDFS的设计特点、体系结构和工作组件; 阐述了HDFS文件系统的工作流程,分析了在HDFS下读写数据的过程; 围绕HDFS文件系统操作,详细介绍了HDFS文件管理命令和HDFS API的主要编程接口,并给出了编程实例。
第5章主要介绍了大数据分布式数据库系统HBase,重点描述了HBase列式数据库的逻辑模型和物理模型的基本概念,给出了HBase体系结构及其工作原理; 结合实例介绍了HBase表及其数据的操作命令,介绍了HBase API的主要编程接口,并给出了编程实例。
第6章主要介绍了大数据分布式数据仓库系统Hive,包括Hive的工作原理和执行流程、Hive的数据类型与数据模型,常用的Hive SQL查询语法及其操作实例,以及Hive的主要访问接口等。
第三篇大数据采集与预处理。本篇着重介绍大数据采集与预处理技术,对常用大数据采集工具进行了简单介绍。本篇包括2章。
第7章主要介绍了大数据采集与预处理相关技术,包括数据抽取、转换和加载技术,数据爬虫技术,数据清理、数据集成、数据变换和数据归约的方法和技术。
第8章主要介绍了常用的大数据采集工具,包括Sqoop关系型大数据采集工具、Flume日志大数据采集系统和Nutch分布式大数据爬虫系统。
第四篇大数据分析与挖掘。本篇着重介绍了大数据计算模式,包括大数据MapReduce计算模型、大数据Spark内存计算模型,以及大数据MapReduce基础算法和挖掘算法,旨在帮助读者全面理解大数据分析与挖掘的核心思想与编程技术。本篇包括5章。
第9章主要介绍了5种大数据计算模式,包括大数据批处理、大数据查询分析计算、大数据流计算、大数据迭代计算和大数据图计算。
□□0章主要介绍了大数据MapReduce计算模型,包括MapReduce的由来、主要功能、技术特征、模型框架、数据处理过程、程序执行过程、主要编程接口及实例分析。
□□1章主要介绍了大数据Spark计算模型,包括Spark的产生、技术特征、工作流程、集群架构及运行模式、主要访问接口,并给出了3种WordCount编程实现。
□□2章主要介绍了大数据MapReduce基础算法,包括关系代数运算的MapReduce设计与实现,矩阵乘法的MapReduce设计与实现。
□□3章主要介绍了大数据挖掘算法,包括大数据关联分析Apriori算法、大数据KNN分类算法和大数据KMeans聚类算法及其MapReduce设计与实现。
第五篇大数据平台Hadoop实践与应用案例。本篇着重介绍大数据Hadoop平台的实践操作,给出了大数据技术在开敞式码头系泊缆力预测中的应用,以及曙光XData大数据平台架构、关键技术及其应用案例,旨在帮助读者理解如何将大数据的方法和技术运用到项目需求中,促进大数据技术在各领域和行业中的应用。本篇包括3章。
□□4章主要介绍Hadoop大数据平台实践,包括Hadoop系统的安装与配置,Hadoop平台文件操作及程序运行命令,以及Hadoop平台程序开发方法和过程。
□□5章主要介绍大数据方法和技术在开敞式码头系泊缆力预测中的应用,给出了大数据系泊缆力相似性查询预测方法,并基于Hadoop大数据平台完成了系泊缆力预测的相似性查询方法的MapReduce设计与实现。
□□6章主要介绍曙光XData大数据平台的架构及关键技术,包括曙光XData大数据集成与数据治理组件、大数据存储与数据计算组件、大数据分析与数据智能组件、大数据可视化分析组件、大数据安全管控与管理运维组件,并给出了基于曙光XData大数据平台的智能交通应用案例。
本书可作为高等院校计算机、软件工程、信息管理等相关专业大数据技术课程的本科生和研究生教材,也可作为IT工程技术人员的参考用书。
本书由大连交通大学宋旭东教授担任主编,并辅助全书内容的组织和编审,宋亮、王立娟、张鹏担任副主编。本书□□篇、第四篇、第五篇由宋旭东编写,第二篇由宋亮编写,第7章由王立娟编写,第8章由张鹏编写。
在本书的编写过程中,丛郁洋、杨杰、朱大杰等研究生做了大量辅助工作; 曙光大数据部副总经理郭庆先生、曙光大数据团队工程师参编了□□6章; 张旗教授对全书进行了审阅; 曙光公司对本书出版给予了大力支持和帮助。在此,一并表示衷心的感谢。在本书的编写过程中,参考了大量国内外教材、论文、技术论坛等相关文献,在此也向文献的作者表示感谢。
由于编者水平有限,书中不足之处在所难免,敬请广大读者批评指正。
编者2019年8月