本着以小见大、实践为先的理念,在工业大数据的背景下,本书阐述了数据的前世今生与内涵、外延,深入浅出地梳理了数据处理的各个阶段及典型框架,内容包括大数据采集、大数据预处理、大数据存储、大数据分析与可视化等,同时还介绍了大数据技术的典型应用。
本书注重学科基础上的知识体系与实践能力,适合作为数据科学相关专业学生的导论教材,也可作为信息类其他专业学生的通识教材,以培养学生的数据思维意识。
大数据科学是信息浪潮,是科学范式,更是发展机遇。正如摩尔定律,信息领域的发展同样具有周期性,前IBM首席执行官郭士纳认为是15年。如果说以信息处理重大突破为标志的个人计算机的诞生与发展是信息化的首次浪潮,以信息共通共享为标志的互联网的发明与应用是第二次浪潮,那么以信息爆炸与智能利用为标志的大数据就是信息化的第三次浪潮。图灵奖获得者吉姆?格雷(Jim Gray)甚至强调,大数据是继实验、理论、计算后的科学第四范式。纵观全球,重视大数据、利用大数据已经得到全球大多数国家的认同,在各行各业都涌现出了一批又一批成功案例,我们没有理由不抓住这个发展良机,以促进富民强国。在数据蛮荒的当下,无论是人才、技术还是应用,与发达国家相比,我们都未处于明显劣势,更应撸起袖子、甩开膀子、迈开步子以助力民族复兴。
大数据专业人才是发展数据科学的要素。作为前沿科学,特别是能够改善各个行业面貌的交叉科学,大数据人才稀缺的状况在全球都非常普遍,尤其是互联网企业占有相当比重的我国。预测显示,2025年前我国大数据人才缺口将达到200万。其中,具有丰富操作经验的应用技术型人才,特别是非结构化、半结构化数据处理类人才的空缺,将逐年激增。为了有效应对,截至2020年3月,经教育部批准,486所本科院校开设了数据科学与大数据技术专业,而如何办好这个新型专业也是我们面临的挑战。面对挑战希望本书能够引导学生、激励学生步入大数据殿堂,感受第四范式之美。
大数据专业人才的培养不能搞大而全,要精准定位。当前,在开源社区的推动下,大到数据生态小到处理方法,如何利用大数据以指导实践早已不再是秘密。然而,由于行业的特殊性,如何设计与实现符合业务要求的大数据方案,却没有公式。同时,由于数据科学的内在挑战及其当前的发展现状,在四年内培养全面的大数据专业人才并不现实,而整齐划一地向数据科学家高地冲锋更会造成严重的人才失衡。本书面向工业大数据,在全面阐述大数据生命周期及治理方案的同时,期望能为该领域大数据人才的特色培养提供一定参考。
本书第1章阐述大数据的基本概念及其处理框架,第2章介绍大数据学科及其专业人才培养体系,第3章概述Hadoop、Spark与Storm等处理框架,第4章详述大数据采集与预处理技术,第5章介绍大数据存储技术,第6章深入阐述多种大数据分析方法,第7章关注大数据可视化,第8章展示大数据的两个典型应用。其中第1章由肖薇编写,第2章由余翔编写,第3、8章由李建敦编写,第4章由覃海焕编写,第5章由李宇佳编写,第6章由吕品编写,第7章由汪鑫编写。本书由李建敦负责统稿,由计春雷主审。
由于作者学识有限,书中难免存在不足之处,敬请诸位专家与广大读者批评指正。
作 者
目 录
前 言
第1章 认识大数据 1
1.1 信息爆炸 1
1.1.1 大数据时代 1
1.1.2 数据、信息与知识 2
1.1.3 数据的来源 3
1.2 大数据的概念与特征 4
1.2.1 大数据的概念 4
1.2.2 大数据的特征 4
1.2.3 大数据的类型 5
1.3 大数据的技术架构及处理技术 6
1.3.1 大数据的技术架构 6
1.3.2 大数据的处理技术 7
1.4 大数据处理的集成平台 7
1.5 工业大数据 8
1.5.1 工业大数据及其特征 8
1.5.2 工业大数据技术及应用 9
1.5.3 工业大数据面临的挑战 10
本章小结 12
阅读材料:啤酒与尿布 12
习题 12
第2章 大数据学科与职业 13
2.1 大数据学科 13
2.2 大数据专业人才培养方案 14
2.3 大数据职业道德 16
本章小结 18
阅读材料:道格 切特 18
习题 19
第3章 大数据生态系统 20
3.1 大数据生态系统概述 20
3.2 并行与分布式处理 21
3.2.1 并行处理 21
3.2.2 分布式处理 22
3.3 Hadoop 22
3.3.1 Hadoop概述 22
3.3.2 Hadoop生态圈 25
3.4 Spark 25
3.4.1 Spark概述 25
3.4.2 Spark生态圈 26
3.5 Storm 26
3.5.1 Storm概述 27
3.5.2 Storm集群架构与工作流程 27
本章小结 28
阅读材料:南森 马茨 28
习题 29
第4章 大数据采集与预处理 30
4.1 大数据采集与预处理概述 30
4.1.1 大数据采集技术 30
4.1.2 大数据预处理技术 32
4.2 大数据采集方法及工具 33
4.2.1 网络数据采集方法 33
4.2.2 系统日志采集方法 36
4.2.3 科研数据采集方法 40
4.2.4 关系型数据库数据采集方法 42
4.3 大数据预处理方法及工具 43
4.3.1 数据清洗 43
4.3.2 数据集成 45
4.3.3 数据归约 46
4.3.4 数据变换 49
本章小结 53
阅读材料:园中有金 53
习题 53
第5章 大数据存储 54
5.1 集中式存储与分布式存储 54
5.2 非结构化数据库 55
5.2.1 NewSQL 56
5.2.2 云数据库 56
5.2.3 HBase 57
5.2.4 MongoDB 58
5.3 数据仓库与OLAP 59
5.3.1 概述 59
5.3.2 基本架构 60
5.3.3 典型应用 62
本章小结 62
阅读材料:盘古系统 63
习题 63
第6章 大数据分析 64
6.1 大数据分析与商业智能 64
6.1.1 大数据与大数据分析 65
6.1.2 大数据分析的种类 66
6.2 大数据统计分析 67
6.2.1 分类问题 68
6.2.2 回归问题 72
6.2.3 聚类问题 74
6.2.4 人工神经网络 75
6.2.5 数据建模 80
6.3 大数据分析的应用与挑战 80
6.3.1 Web挖掘 81
6.3.2 文本挖掘 84
6.3.3 社会网络分析 87
6.3.4 智能制造中的数据分析 89
本章小结 89
阅读材料:贝叶斯 89
习题 90
第7章 大数据可视化 91
7.1 数据可视化概述 91
7.1.1 数据可视化的特点 91
7.1.2 数据可视化的典型应用 92
7.2 数据可视化的常用工具 92
7.2.1 Tableau 92
7.2.2 Matplotlib 93
7.2.3 ECharts 94
本章小结 95
阅读材料:马克 扎克伯格 95
习题 96
第8章 大数据技术的典型应用 97
8.1 案例一:大型工业设备实时监
测系统 97
8.1.1 集群部署与配置 97
8.1.2 数据表结构 101
8.2 案例二:基于MapReduce的
薪资核算 102
参考文献 107