本书系统介绍了大数据的内涵、特征、技术及应用。全书共10章,其中第1~8章为技术篇,主要从大数据处理流程出发,围绕大数据体系架构,详细阐述大数据采集与预处理、大数据存储、大数据分析挖掘、大数据可视化等关键技术。第9、10两章为应用篇,对大数据在电信、文娱、教育、医疗等行业的具体应用进行了论述,并通过典型案例与Python代码示例,展示如何将大数据原理付诸实践。
本书兼顾专业性和可读性,适合作为高等院校大数据技术的基础教材,也可供大数据技术爱好者学习参考。
随着移动互联网和物联网的广泛应用,全球数据量呈现井喷式增长,汹涌而来的数据洪流将人类社会带入了崭新的大数据时代。大数据虽然是现代信息技术发展的产物,但它的影响不仅仅局限于信息通信产业,而是覆盖到社会的各个领域。从国家治理到企业运营,从经济生产到社会生活,大数据的身影无处不在,深刻影响和改变着人类的生产、生活及思维方式。数据作为与物质、能源同等重要的战略资源,蕴含着巨大的商业价值,只有凭借敏锐的洞察力和先进的大数据处理技术,才能从中挖掘出隐藏的信息,实现数据价值的提升。
大数据技术具有很强的实用性。本书在编写时,坚持“以应用为先”的原则,注重理论与实践相结合,将大数据抽象的概念、原理和技术方法融入具体实例中,帮助读者更好地理解、掌握和运用大数据技术。本书在结构编排上遵循初学者的认知特点,首先对大数据的概念进行剖析,使读者建立起对大数据的感性认识,然后以大数据处理流程为主线,依次阐述数据采集、预处理、存储、分析挖掘及可视化等关键技术,后结合行业案例和典型应用加深读者对理论知识的理解。本书重在培养读者的大数据思维,并未过多涉及深奥的数学理论和复杂的编程细节。
全书共10章:第1章是概述部分,主要介绍大数据的定义、特点、相关技术和应用领域。第2章介绍大数据的采集和预处理,包括数据采集方法、数据预处理流程以及常用的大数据采集与处理平台。第3章介绍常用的大数据存储技术,包括底层分布式文件系统、分布式数据库和支持企业业务决策的数据仓库。第4~7章介绍数据分析挖掘的理论和方法,详细阐述分类、回归、聚类和关联分析等技术的概念、处理流程、常用算法及评价指标。第8章介绍数据可视化技术的理论与方法,主要包括数据可视化的概念、原则、分析工具和编程语言,并简要介绍可视化技术的行业应用。第9章介绍电信行业大数据的发展及应用现状,着重分析大数据在电信网络优化、电信客户细分、电信客户流失管理等方面的典型案例。第10章介绍大数据技术在文娱、教育、医疗等行业的应用案例。
为便于教师教学和学生学习,本书提供所有案例的源代码,同时配有电子课件和课后习题的参考答案,读者可在机械工业出版社教育服务网(http://www.cmpedu.com)下载。
本书由施苑英、蒋军敏、石薇和王竹霞共同编写,具体分工如下:施苑英编写第1章、第6章、第9章9.1~9.4节,蒋军敏编写第2章、第5章和第9章9.5节,石薇编写第3章、第7章、第10章10.1和10.2节,王竹霞编写第4章、第8章和第10章10.3节。同时感谢西安邮电大学王选宏高级工程师对完成本书所给予的帮助和支持!
本书在编写过程中,参考了大量国内外著作、论文以及互联网上的优秀文章,在此谨向相关作者表示衷心的感谢。由于文献资料数目较多,在列入参考文献时难免有所疏漏,我们对所涉及的作者深表歉意。
由于编者水平有限,兼之时间仓促,书中的错误和不妥之处在所难免,恳请广大读者批评指正。
编者
目录
前言
第1章大数据技术概述
1.1什么是大数据
1.2大数据技术
1.3大数据应用
习题
第2章大数据采集与预处理
2.1大数据采集概述
2.2大数据采集方法
2.3大数据预处理
2.4大数据采集及处理平台
习题
第3章大数据存储技术
3.1存储技术的发展
3.2分布式文件系统
3.3数据库
3.4数据仓库
习题
第4章大数据分析挖掘——分类
4.1分类分析概述
4.2分类分析的过程
4.3分类算法
4.4分类结果评估
习题
第5章大数据分析挖掘——回归
5.1回归分析概述
5.2回归分析的步骤
5.3回归分析算法
5.4回归算法评估
习题
第6章大数据分析挖掘——聚类
6.1聚类分析概述
6.2聚类分析的步骤
6.3相似度计算
6.4聚类算法
6.5聚类结果评估
习题
第7章大数据分析挖掘——关联规则
7.1关联规则的概念
7.2关联规则挖掘的一般过程
7.3Apriori算法
7.4FP-Growth算法
7.5关联模式评估
习题
第8章大数据可视化技术
8.1可视化技术概述
8.2数据可视化工具
8.3数据可视化应用
习题
第9章电信行业大数据应用
9.1电信大数据概述
9.2电信大数据应用
9.3案例1——网络优化
9.4案例2——客户细分
9.5案例3——客户流失管理
习题
第10章其他行业大数据应用
10.1文娱行业大数据应用
10.2教育行业大数据应用
10.3医疗行业大数据应用
习题
参考文献