本书第1章为大数据概述,介绍大数据的基本概念和应用领域,回顾大数据理念和技术的发展历程,阐述大数据的发展前景。第2~7章介绍大数据采集与预处理、大数据计算平台、大数据管理、数据挖掘、大数据隐私与安全和人工智能6个大数据领域及其中的主要技术。第2章主要介绍大数据采集技术,包括大数据的来源、采集方法及数据预处理方法等,*后对大数据采集应用案例进行分析,帮助读者更好地理解大数据采集技术。第3章介绍大数据处理架构Hadoop以及与大数据技术密不可分的云计算技术及其应用。由于Hadoop已经成为应用*广泛的大数据技术,本书的大数据相关技术主要围绕Hadoop展开,包括HDFS和MapReduce。第4章介绍大数据管理,包括分布式数据库(HBase)、常用的NoSQL数据库和云数据库。第5章从数据挖掘的概念入手,介绍数据挖掘的几种算法以及算法的应用。第6章提出大数据面临的安全隐患,介绍大数据安全的基本概念以及大数据安全与隐私保护的主要方法。第7章介绍人工智能的起源和基本概念,通过案例介绍一些经典的机器学习算法在实际中的应用。第8~11章包含4个实验,对应数据采集技术、云计算技术和数据挖掘技术展开。本书在重视理论的前提下,不忽视实际的可操作性,注重问题的解决,大数据基础与大数据技术部分每章均设有习题,以帮助读者巩固所学知识。
本书以大数据技术为主线,将大数据系统处理数据过程中的核心技术串接起来,分为基础部分、技术部分及实验部分。不同技术配套一个当前的热门话题案例,让学生明白技术的应用范围及领域,从而找到适合自己发展的大数据技术方向。
随着移动互联网、物联网、云计算等新一代信息技术的应用和推广,大数据技术成为又一颠覆性的技术,备受人们关注。身处大数据时代,我们已经感受到大数据对人们的思维模式和生活方式的改变,大数据对人类的社会生产和生活必将产生重大而深远的影响。本书定位为大数据技术入门教材,以大数据的基本技术路线为框架,通过基本理论和应用实例相结合的方式,介绍大数据技术,帮助读者形成对大数据知识体系及其应用领域的轮廓性认识,为读者在大数据领域的继续深造奠定基础。本书旨在服务大数据初学者,为适应初学者学习特点,适当增加了广度而降低了深度,在数据挖掘部分尽可能少地使用数学知识,对于一些不可避免的部分,力求展现其中的精华,而在大数据实验部分,必须掌握的基础性编程语言也有涉及。本书主要以Java语言为基础。本书第1章为大数据概述,介绍大数据的基本概念和应用领域,回顾大数据理念和技术的发展历程,阐述大数据的发展前景。第2~7章介绍大数据采集与预处理、大数据计算平台、大数据管理、数据挖掘、大数据隐私与安全和人工智能6个大数据领域及其中的主要技术。第2章主要介绍大数据采集技术,包括大数据的来源、采集方法及数据预处理方法等,*后对大数据采集应用案例进行分析,帮助读者更好地理解大数据采集技术。第3章介绍大数据处理架构Hadoop以及与大数据技术密不可分的云计算技术及其应用。由于Hadoop已经成为应用*广泛的大数据技术,本书的大数据相关技术主要围绕Hadoop展开,包括HDFS和MapReduce。第4章介绍大数据管理,包括分布式数据库(HBase)、常用的NoSQL数据库和云数据库。第5章从数据挖掘的概念入手,介绍数据挖掘的几种算法以及算法的应用。第6章提出大数据面临的安全隐患,介绍大数据安全的基本概念以及大数据安全与隐私保护的主要方法。第7章介绍人工智能的起源和基本概念,通过案例介绍一些经典的机器学习算法在实际中的应用。第8~11章包含4个实验,对应数据采集技术、云计算技术和数据挖掘技术展开。本书在重视理论的前提下,不忽视实际的可操作性,注重问题的解决,大数据基础与大数据技术部分每章均设有习题,以帮助读者巩固所学知识。本书由武汉华夏理工学院刘春燕和司晓梅主编。在本书编写的过程中,编者参考了国内外大量大数据及云计算技术的文献资料,且书中部分案例来自网络,在此一并对相关作者表示感谢。由于编者能力有限,书中难免存在不妥之处,恳请读者朋友提出宝贵意见,不胜感激。
刘春燕,女,副教授,计算机与网络工程系副主任。从事专业:计算机科学与技术,研究方向:数据库应用、大数据技术。近5年,主持省教育厅项目1项,主持湖北省交通物联网实验室开放基金项目1项,主持湖南省高铁研究中心开放基金项目1项,参与多项省级、院级教科研项目。在国内外期刊杂志和学术会议上发表学术论文10余篇,其中中文核心期刊2篇,EI检索会议论文4篇,参编教材2部。指导学生参加蓝桥杯全国软件和信息技术专业人才大赛获全国优秀奖,被评为优秀指导教师。先后荣获优秀科研工作者、年度优秀员工、教学质量优秀奖等荣誉称号。
第1章 大数据概述/001
1.1 大数据兴起之谜/001
1.2 无处不在的大数据/004
1.3 大数据的概念和特征/013
1.4 大数据的关键技术/016
1.5 大数据与云计算、物联网/022
1.6 大数据的发展、应用及挑战/027
第2章 大数据采集与预处理/032
2.1 大数据的来源/032
2.2 大数据的采集方法/034
2.3 数据预处理/044
2.4 大数据采集应用案例互联网行业 职场分析/052
第3章 大数据计算平台/058
3.1 Hadoop平台/058
3.2 HDFS /062
3.3 大数据计算模式/067
3.4 MapReduce /069
3.5 Spark平台/078
3.6 流计算框架Storm /087
3.7 云计算平台/091
3.8 云计算的关键技术/096
第4章 大数据管理大数据的高效之道/101
4.1 大数据管理之NoSQL数据库/101
4.2 NoSQL与关系型数据库的比较/104
4.3 NoSQL的四大类型/107
4.4 NoSQL的三大基石/111
4.5 新兴数据库技术/114
4.6 大数据应用案例在北上广打拼是怎样一种体验/120
第5章 数据挖掘大数据的智慧之道/126
5.1 数据挖掘概述/126
5.2 大数据挖掘技术/128
5.3 分类和预测/129
5.4 聚类分析/139
5.5 关联规则分析/138
5.6 商业智能的分析预测/154
5.7 社交大数据的成功密码/158
5.8 大数据应用案例大数据预测/163
第6章 大数据隐私与安全/1686.1 安全与隐私问题/168
6.2 大数据面临的问题/169
6.3 大数据的安全防护策略/171
6.4 如何解决隐私保护问题/171
6.5 大数据应用案例智慧城市中的 安全防护/175
第7章 人工智能科幻到现实的蜕变/182
7.1 人工智能的起源/182
7.2 当人工智能遇上大数据/190
7.3 人机大战:AI会挑战人类吗?/192
7.4 AI会取代人类吗?/194
7.5 AI时代的教育与个人发展/199
7.6 大数据应用案例神秘AI的魅力 /203
第8章 数据采集实验/206
第9章 CloudSim虚拟平台实验/212
第10章 数据挖掘算法之Apriori算法实验/215
第11章 数据挖掘算法之决策树算法实验/216
附录A /218
附录B /219
附录C /229
参考文献/239