本书是将大数据这一计算机前沿科学和基本应用有机结合的典范教材,全面介绍大数据和相关的基础知识,由浅入深地剖析大数据的分析处理方法和技术手段,突出介绍大数据*的发展趋势和技术成果。
本书的一大亮点是每章中都使用图表对大数据与传统数据处理方式进行对比。另外,本书注重启发式的学习策略,便于读者理解和掌握。全书每章均包括实际应用案例与关键词注释,方便读者查阅和自学,同时配备习题和参考答案。
本书体系完整、内容丰富、注重应用、前瞻性强、适用性好,并有开放式的课程教学网站(http://www.cmu.edu.cn/computer)提供技术支持。
本书既可以作为普通高校大数据技术的基础教材,也可以作为职业培训教育及相关技术人员的参考用书。
1.本书围绕大数据及其相关技术这一主题,采用深入浅出的叙述方式,简明扼要地阐述了大数据和云计算等新兴技术的基本理论、知识内容、关键技术和实际应用,为广大高校师生提供大数据方向计算机公共基础课程的基础知识和大数据的应用方法、案例剖析。2.在编写原则上,本书既维持了大数据相关信息技术本身应有的系统性和理论性,又着重体现应用性与针对性。本书可以用于启发式教学模式,同时适合混合式教学模式,且便于学生理解和掌握。IT产业在过去50多年的发展历程中,已经经历过几轮技术浪潮。如今,新的一股浪潮正在迅速朝我们涌来,并将触及IT行业的许多方面,这就是大数据浪潮。其将比之前发生过的浪潮更大、触及面更广,并将对人们的工作和生活产生新的影响。因此,在面对大数据之际,各个专业的在校大学生迫切需要充实自己原有的IT知识结构,掌握两个本领,一是掌握大数据基本技术与应用,使大数据为我们所用的本领;二是掌握挖掘数据之间隐藏的规律与关系,使大数据更好地服务于社会发展的本领。
前言
IT产业在其发展历程中,经历过几轮技术浪潮。如今,大数据浪潮正在迅速地朝人们涌来,并将触及到各个行业和生活的许多方面。大数据浪潮将比之前发生过的浪潮更大、触及面更广,给人们的工作和生活带来的变化和影响更深刻。大数据的应用激发了一场思想风暴,也悄然地改变了人们的生活方式和思维习惯。大数据正以前所未有的速度颠覆人们探索世界的方法,引起工业、商业、医学、军事等领域的深刻变革。因此,在当前大数据浪潮的猛烈冲击下,各个专业的高校大学生迫切需要充实和完善自己原有的IT知识结构,掌握两个本领: 一是掌握大数据基本技术与应用,使大数据能够为我所用; 二是挖掘数据之间隐藏的规律与关系,使大数据更好地服务于社会发展。为此,本书围绕大数据及其相关技术这一主题,采用深入浅出的叙述方式,简明扼要地阐述大数据及其相关最新技术的基本理论、关键技术和实际应用,目的是让广大师生以计算机公共基础课程为知识载体,对大数据在各个领域的应用方法和相关知识有所了解。将大数据相关课程纳入大学基础教育中,必将引领学生更好地把握时代科学发展的脉搏和历史赋予的机遇。在编写原则上,本书既维持了大数据技术本身应有的系统性和理论性,又着重体现其在各个领域内的应用性与针对性。本书的一大亮点是每章都使用图表对大数据与传统数据处理方式进行对比。另外,本书注重启发式的学习策略,便于读者理解和掌握。全书每章均包括实际应用案例与关键词注释,方便读者查阅和自学,同时配备习题和参考答案。全书在内容上共分成11章: 第1章大数据概论由娄岩编写,第2章大数据采集及预处理由郑琳琳编写,第3章大数据分析概论由刘尚辉编写,第4章大数据可视化由李静编写,第5章Hadoop概论由马瑾编写,第6章HDFS和Common概论由丁林编写,第7章MapReduce概论由徐东雨编写,第8章NoSQL概论由曹阳编写,第9章Spark概论由庞东兴编写,第10章云计算与大数据由张志常编写,第11章典型大数据解决方案由霍妍编写。清华大学出版社对本书的出版做了精心策划,充分论证,在此向所有参加编写的同事们及帮助和指导过我们工作的朋友们表示衷心的感谢!由于编者水平有限,加之时间仓促,书中难免存在疏漏之处,恳请广大读者批评斧正。
娄岩2016年9月
目录
前言Ⅰ
第1章大数据概论
1.1大数据技术简介
1.1.1IT产业的发展简史
1.1.2大数据的主要来源
1.1.3数据生成的3种主要方式
1.1.4大数据的特点
1.1.5大数据的处理流程
1.1.6大数据的数据格式
1.1.7大数据的基本特征
1.1.8大数据的应用领域
1.2大数据的技术架构
1.3大数据的整体技术
1.4大数据分析的4种典型工具简介
1.5大数据未来发展趋势
1.5.1数据资源化
1.5.2数据科学和数据联盟的成立
1.5.3大数据隐私和安全问题
1.5.4开源软件成为推动大数据发展的动力
1.5.5大数据在多方位改善人们的生活
本章小结
习题1
第2章大数据采集及预处理
2.1数据采集简介
2.1.1数据采集
2.1.2数据采集的数据来源
2.1.3数据采集的技术方法
2.2大数据的预处理
2.3大数据采集及预处理的主要工具
本章小结
习题2
第3章大数据分析概论
3.1大数据分析简介
3.1.1大数据分析
3.1.2大数据分析的基本方法
3.1.3大数据处理流程
3.2大数据分析的主要技术
3.2.1深度学习
3.2.2知识计算
3.3大数据分析处理系统简介
3.3.1批量数据及处理系统
3.3.2流式数据及处理系统
3.3.3交互式数据及处理系统
3.3.4图数据及处理系统
3.4大数据分析的应用
本章小结
习题3
第4章大数据可视化
4.1大数据可视化简介
4.2大数据可视化工具Tableau
本章小结
习题4
第5章Hadoop概论
5.1Hadoop简介
5.1.1Hadoop简史
5.1.2Hadoop应用和发展趋势
5.2Hadoop的架构与组成
5.2.1Hadoop架构介绍
5.2.2Hadoop组成模块
5.3Hadoop应用分析
本章小结
习题5
第6章HDFS和Common概论
6.1HDFS简介
6.1.1HDFS的相关概念
6.1.2HDFS特性
6.1.3HDFS体系结构
6.1.4HDFS的工作原理
6.1.5HDFS的相关技术
6.2Common简介
本章小结
习题6
第7章MapReduce概论
7.1MapReduce简介
7.1.1MapReduce
7.1.2MapReduce功能、特征和局限性
7.2Map和Reduce任务
7.3MapReduce架构和工作流程
7.3.1MapReduce的架构
7.3.2MapReduce的工作流程
本章小结
习题7
第8章NoSQL概论
8.1NoSQL简介
8.1.1NoSQL的含义
8.1.2NoSQL的产生
8.1.3NoSQL的特点
8.2NoSQL技术基础
8.2.1大数据的一致性策略
8.2.2大数据的分区与放置策略
8.2.3大数据的复制与容错技术
8.2.4大数据的缓存技术
8.3NoSQL的类型
8.3.1键值存储
8.3.2列存储
8.3.3面向文档存储
8.3.4图形存储
8.4典型的NoSQL工具
8.4.1Redis
8.4.2Bigtable
8.4.3CouchDB
本章小结
习题8
第9章Spark概论
9.1Spark平台
9.1.1Spark简介
9.1.2Spark发展
9.1.3Scala语言
9.2Spark与Hadoop
9.2.1Hadoop的局限与不足
9.2.2Spark的优点
9.2.3Spark速度比Hadoop快的原因分解
9.3Spark处理框架及其生态系统
9.3.1底层的Cluster Manager和Data Manager
9.3.2中间层的Spark Runtime
9.3.3高层的应用模块
9.4Spark的应用
9.4.1Spark的应用场景
9.4.2应用Spark的成功案例
本章小结
习题9
第10章云计算与大数据
10.1云计算简介
10.1.1云计算
10.1.2云计算与大数据的关系
10.1.3云计算基本特征
10.1.4云计算服务模式
10.2云计算核心技术
10.2.1虚拟化技术
10.2.2虚拟化软件及应用
10.2.3资源池化技术
10.2.4云计算部署模式
10.3云计算应用案例
本章小结
习题10
第11章典型大数据解决方案
11.1Intel大数据
11.1.1Intel大数据解决方案
11.1.2Intel大数据相关案例
11.2百度大数据
11.2.1百度大数据引擎
11.2.2百度大数据 平台
11.2.3相关应用
11.2.4百度预测的使用方法
11.3腾讯大数据
11.3.1腾讯大数据解决方案
11.3.2相关实例
本章小结
习题11
附录A习题答案
参考文献