《大数据技术概论:从虚幻走向真实的数据世界》从初学者易于理解的角度,以通俗易懂的语言、丰富的实例、简洁的图表、传统和现代数据特征的对比,将大数据这一计算机前沿科学如数家珍地娓娓道来。既介绍了大数据和相关的基础知识,又与具体应用有机结合起来,并借助可视化图表的画面感立体地为读者剖析了大数据的技术和原理,非常便于自学。
本书内容包括大数据概论、大数据采集及预处理、大数据分析、大数据可视化、Hadoop概论、HDFS和Common概论、MapReduce概论、NoSQL技术介绍、Spark概论、云计算与大数据、大数据相关案例等内容。
本书既可以作为想了解大数据技术和应用的初学者的教材,也适合作为培训中心、IT人员、企业策划和管理人员的参考书。
前言
IT产业在其发展历程中,经历过几次技术浪潮。如今,大数据浪潮正在迅速朝我们涌来,并将触及各个行业和生活的许多方面。大数据浪潮将比之前发生过的浪潮更大、触及面更广,给人们的工作和生活带来的变化和影响也更大。
毋庸置疑,大数据的应用激发了一场思想风暴,也悄然改变了我们的生活方式和思维习惯。大数据正以前所未有的速度颠覆人们探索世界的方法,引起工业、商业、医学、军事等领域的深刻变革。因此,在当前大数据浪潮的猛烈冲击下,人们迫切需要充实和完善自己原有的IT知识结构,掌握两种全新的技能: 一是掌握大数据基本技术与应用,使大数据为我们所用的技能; 二是掌握数据之间隐藏的规律与关系,以及可视化方法,使大数据更好地服务于社会发展的技能。
本书注重实用性,围绕大数据及其相关技术这一主题,采用深入浅出、图文并茂的叙述方式,简明扼要地阐述了大数据及其相关技术的基本理论和发展趋势,使广大读者通过阅读本书,深入了解和掌握大数据的理论和应用,从而更好地把握时代发展的脉搏和历史赋予的机遇。
本书的目标是给广大读者提供一个既通俗易懂,又具有严谨、完整、结构化特征的书籍。其独到之处是既阐明了大数据技术的系统性和理论性,又对传统数据和大数据在来源、结构、特征、存储方式、使用方法等方面,通过大量的表格和图形方式进行了有针对性的对比和阐述,使读者对两者的区别一目了然,对理解和掌握大数据理技术具有事半功倍的效果。另外,考虑到大数据技术涉及许多新名词和专业性极强的词汇,故在全书的每一章中均附有相关术语的注释,方便读者查阅和自学。
本书还力求将大数据技术晦涩难懂的理论知识以通俗易懂的语言和方式,由浅入深地展现在读者面前,便于读者理解和掌握。本书内容重点突出,语言精练易懂,非常便于自学,可作为想了解、使用大数据技术的相关人员,如工程技术人员、IT工作者、企业策划和管理人员的参考书,也可作为相关学习班的培训教材。
全书共分成11章: 第1章大数据概论,第2章大数据采集及预处理,第3章大数据分析概论,第4章大数据可视化,第5章Hadoop概论,第6章HDFS和Common概论,第7章MapReduce概论,第8章NoSQL技术介绍,第9章Spark概论,第10章云计算与大数据,第11章大数据解决方案相关案例。
本书在写作过程中参阅了大量的中外书籍和相关资料,在此对各位作者表示真诚的谢意。另外本书得到了中国医科大学沙宪政教授和东北大学杨广明教授的大力支持,清华大学出版社对这本书的出版做了精心策划及充分论证,特此感谢!由于作者水平有限,加之时间仓促,书中难免存在疏漏之处,恳请广大读者批评斧正!
娄岩2016年6月
第1章大数据概论
1.1大数据技术概述
1.1.1大数据的基本概念
1.1.2IT产业的发展简史
1.1.3大数据的来源
1.1.4大数据产生的三个发展阶段
1.1.5大数据的特点
1.1.6大数据处理流程
1.1.7大数据的数据格式特性
1.1.8大数据的特征
1.1.9大数据的应用领域
1.2大数据技术架构
1.3大数据的整体技术和关键技术
1.4大数据分析的五种典型工具简介
1.5大数据未来发展趋势
1.5.1数据资源化
1.5.2数据科学和数据联盟的成立
1.5.3大数据隐私和安全问题
1.5.4开源软件成为推动大数据发展的动力
1.5.5大数据在多方位改善我们的生活
本章小结
第2章大数据采集及预处理
2.1大数据采集
2.1.1大数据采集概述
2.1.2大数据采集的数据来源
2.1.3大数据采集的技术方法
2.2大数据的预处理
2.3大数据采集及预处理的工具
本章小结
第3章大数据分析概述
3.1大数据分析简介
3.1.1什么是大数据分析
3.1.2大数据分析的基本方法
3.1.3大数据处理流程
3.2大数据分析的主要技术
3.2.1深度学习
3.2.2知识计算
3.2.3可视化
3.3大数据分析处理系统简介
3.3.1批量数据及处理系统
3.3.2流式数据及处理系统
3.3.3交互式数据及处理系统
3.3.4图数据及处理系统
3.4大数据分析的应用
本章小结
第4章大数据可视化
4.1大数据可视化概述
4.1.1大数据可视化与数据可视化
4.1.2大数据可视化的过程
4.2大数据可视化工具
4.2.1常见大数据可视化工具简介
4.2.2Tableau数据可视化入门
本章小结
第5章Hadoop概论
5.1Hadoop简介
5.1.1Hadoop的发展简史
5.1.2Hadoop应用现状和发展趋势
5.2Hadoop的架构与组成
5.2.1Hadoop架构
5.2.2Hadoop组成模块介绍
5.3Hadoop的应用
5.3.1Hadoop平台搭建
5.3.2Hadoop的开发方式
5.3.3Hadoop应用分析
本章小结
第6章HDFS和Common概论
6.1HDFS概述
6.1.1HDFS相关概念
6.1.2HDFS特点
6.1.3HDFS体系结构
6.1.4HDFS工作原理
6.1.5HDFS相关技术
6.1.6HDFS源代码结构
6.1.7HDFS接口
6.2Common概述
本章小结
第7章MapReduce概论
7.1MapReduce简介
7.1.1如何理解MapReduce
7.1.2MapReduce功能和技术特征
7.2MapReduce的Map和Reduce任务
7.2.1Map与Reduce
7.2.2Map任务原理
7.2.3Reduce任务原理
7.3MapReduce架构和工作流程
7.3.1MapReduce的架构
7.3.2MapReduce工作流程
7.4MapReduce编程源码范例
7.5MapReduce接口
本章小结
第8章NoSQL技术介绍
8.1NoSQL基础知识
8.1.1NoSQL的产生
8.1.2NoSQL的特点
8.1.3NoSQL的技术基础
8.2NoSQL的种类
8.2.1键值存储
8.2.2列存储
8.2.3面向文档存储
8.2.4图形存储
8.3典型的NoSQL工具
8.3.1Redis
8.3.2Bigtable
8.3.3CouchDB
8.3.4Neo4j
本章小结
第9章Spark概论
9.1Spark概述
9.1.1Spark简介
9.1.2Spark发展
9.1.3Scala语言
9.2Spark与Hadoop
9.2.1Hadoop的局限与不足
9.2.2Spark的优点
9.2.3Spark速度比Hadoop快的原因分解
9.3Spark大数据处理架构及其生态系统
9.3.1底层的Cluster Manager和Data Manager
9.3.2中间层的Spark Runtime
9.3.3高层的应用模块
9.4Spark的应用
9.4.1Spark的应用场景
9.4.2应用Spark的成功案例
本章小结
第10章云计算与大数据
10.1云计算概论
10.1.1云计算定义
10.1.2云计算与大数据的关系
10.1.3云计算基本特征
10.1.4云计算服务模式
10.2云计算核心技术
10.2.1虚拟化技术
10.2.2虚拟化软件及应用
10.2.3资源池化技术
10.2.4云计算部署模式
10.3云计算仿真
10.4云计算的安全
10.4.1云计算安全现状
10.4.2云计算安全服务体系
10.5云计算应用案例
本章小结
第11章大数据解决方案及相关案例
11.1大数据解决方案基础
11.2Intel大数据
11.2.1Intel大数据解决方案
11.2.2Intel大数据相关案例——中国移动广东公司详单、账单
查询系统
11.3百度大数据
11.3.1百度大数据引擎
11.3.2百度大数据+平台
11.3.3相关应用
11.3.4百度预测的使用方法
11.4腾讯大数据
11.4.1腾讯大数据解决方案
11.4.2相关实例——广点通
本章小结
参考文献