本书以大数据的全生命周期中涉及技术为线索,比较全面地介绍了大数据技术架构、基础设施、大数据采集与预处理、数据存储与文件系统、NoSQL数据库、数据分析与开发、数据可视化及应用、大数据安全等方面内容,同时针对Hadoop框架、HDFS、HBASE、Spark等技术为例进行了部署展示,并针对大数据有关的云计算、人工智能等与大数据息息相关的内容进行较为详细的介绍与说明。
本书针对相关知识点都进行较为细致的讲述,并配有与理论学习相结合的电子资源,包括教学大纲、课程PPT与实验案例等,可作为高校计算机、信息技术类大数据相关通识课程教材,也可以作为大数据相关专业的专业课程教材。
(1)系统化理论建设,理论讲解与动手实践相结合。
(2)适配大数据处理主流技术,提供大量实践案例。
(3)注重教学资源建设,常规教学资源及微课同步建设。
目前国内大数据技术继续保持高速的发展态势,作者从大数据的全生命周期中涉及的大数据技术架构、基础设施、大数据采集与预处理、数据存储与文件系统、NoSQL数据库、数据分析与开发、数据可视化及应用、大数据安全等方面得到较为全面指导和帮助,并且能够在一门课程中学习与大数据有关的云计算、人工智能等与大数据息息相关的内容。
孔华锋,武汉商学院信息工程学院,副院长,研究员,博士。曾参与科技部重大科技专项信息安全领域十二五规划和公安部十二五国家科技支撑计划社会公共安全领域规划的起草。在信息网络安全、电子数据取证鉴定、云计算大数据、多媒体技术应用与网络存储等方面均有深入研究。先后主持和参与过十一五、十二五、十三五国家科技支撑计划项目、国家863项目、国家自然科学基金、发改委信息安全专项和科技基础性专项项目等多项国家科技支撑计划和省部级科研课题;作为项目负责人主持开发完成多个安全产品的研究与开发,相关成果已投入实际应用;曾任《网络事件预警与防控技术国家工程实验室》和《大数据协同安全国家工程实验室》的高级研究员。在国内外核心期刊和重要会议上发表学术论文10多篇,获得10余项专利和著作权。
第 1章 大数据的概述 1
本章导读 1
1.1 什么是大数据 1
1.2 大数据的来源 3
1.3 大数据的分类 5
1.4 大数据的特征 7
1.5 大数据的新思维和新理念 8
1.6 大数据系统的基础架构 13
1.6.1 基础支撑服务 14
1.6.2 数据采集及预处理服务 14
1.6.3 数据存储服务 15
1.6.4 数据引擎服务 16
1.6.5 综合应用服务 16
1.6.6 数据治理体系 16
1.6.7 支撑体系 18
1.7 大数据的技术体系 18
1.8 本章小结 19
拓展阅读 19
本章习题 20
第 2章 大数据基础设施 22
本章导读 22
2.1 虚拟化技术 23
2.1.1 虚拟化的定义 23
2.1.2 虚拟化的特征 24
2.1.3 虚拟化技术的分类 26
2.2 云计算技术 30
2.2.1 云计算的定义 30
2.2.2 云计算的特点 31
2.2.3 云计算的技术架构 32
2.2.4 云计算的部署模式 34
2.2.5 云计算平台的功能 36
2.3 Hadoop分布式系统 37
2.3.1 Hadoop简介 37
2.3.2 Hadoop发展历史 38
2.3.3 Hadoop的特点 39
2.3.4 Hadoop的版本演进 40
2.3.5 Hadoop生态组件 41
2.4 本章小结 45
拓展阅读 45
本章习题 47
第3章 大数据采集与预处理 48
本章导读 48
3.1 大数据采集 49
3.1.1 大数据采集概述 49
3.1.2 日志数据采集 52
3.1.3 网络数据采集 56
3.1.4 网络旁路的数据采集 69
3.2 大数据预处理 70
3.2.1 数据预处理概述 70
3.2.2 数据特征 71
3.2.3 数据规范化 73
3.2.4 数据抽取 73
3.2.5 数据清洗 75
3.2.6 数据集成 81
3.2.7 数据转换 82
3.2.8 数据加载 83
3.2.9 数据消减 84
3.3 本章小结 85
拓展阅读 86
Kettle 86
Sqoop 88
本章习题 90
第4章 大数据存储与分布式文件系统 91
本章导读 91
4.1 传统的存储设备 92
4.1.1 机械硬盘 92
4.1.2 固态硬盘 94
4.1.3 移动存储介质 94
4.1.4 传统存储系统 95
4.2 独立磁盘冗余阵列(RAID) 96
4.2.1 RAID概述 96
4.2.2 RAID架构 97
4.2.3 RAID 0 99
4.2.4 RAID 1 102
4.2.5 RAID 5 102
4.3 HDFS分布式文件系统 102
4.3.1 HDFS的简介 103
4.3.2 HDFS的体系架构 106
4.3.3 名称节点与数据节点 109
4.3.4 映像文件与事务日志的归并 111
4.3.5 HDFS的数据存储特性 113
4.3.6 HDFS的容错机制 114
4.3.7 HDFS的高可用机制 115
4.3.8 HDFS的联邦机制 116
4.4 本章小结 118
拓展阅读 118
本章习题 120
第5章 大数据的数据库系统 121
5.1 非关系NoSQL数据库 123
5.1.1 NoSQL的特点 123
5.1.2 NoSQL的理论基础 124
5.1.3 NoSQL的类型 130
5.2.4. NoSQL的发展趋势及挑战 136
5.3 HBase数据库 137
5.3.1 HBase的概述 137
5.3.2 HBase数据模型 138
5.3.3 Hbase体系架构 141
5.3.4 HBase运行机制 145
5.3 数据仓库 147
5.4.1 数据仓库的发展 147
5.4.2 Hive 148
5.4.3 Impala 151
5.7 本章小结 154
拓展阅读 154
数据湖的概念 154
数据湖的特点 155
本章习题 157
第6章 大数据的计算模式 158
本章导读 158
6.1 大数据计算模式的特征和分类 159
6.2 MapReduce批处理计算框架 161
6.2.1 MapReduce的思想 162
6.2.2 MapReduce的功能函数 164
6.2.3 MapReduce的体系架构 166
6.2.4 MapReduce的工作原理 170
6.2.5 MapReduce的实例 175
6.3 YARN资源管理 176
6.3.1 YARN资源管理的概述 176
6.3.2 资源管理器 178
6.3.3 节点管理器 178
6.3.4 应用程序管理器 178
6.3.5 YARN资源管理的工作流程 179
6.3.6 YARN资源管理的优势 180
6.4 Spark内存并行计算框架 181
6.4.1 Spark内存并行计算框架的概述 181
6.4.2 Spark内存并行计算框架的思想 183
6.4.3 Spark内存并行计算框架的体系架构 186
6.4.4 Spark内存并行计算框架的运行流程 188
6.4.5 Spark内存并行计算框架的RDD 190
6.4.6 Spark交互查询引擎 200
6.6 本章小结 202
拓展阅读 202
本章习题 205
第7章 大数据分析挖掘与可视化 207
本章导读 207
7.1 大数据分析挖掘 207
7.1.1 大数据挖掘概述 207
7.1.2 数据挖掘与数据分析 210
7.1.3 大数据挖掘的特点与挑战 211
7.2 数据相似性 214
7.2.1 数值属性的相似性度量 215
7.2.2 标称属性的相似性度量 216
7.2.3 文本相似性度量 217
7.3 数据挖掘方法 218
7.4 大数据挖掘工具 219
7.4.1 weka 219
7.4.2 Spark MLlib 221
7.5 数据可视化概述 223
7.5.1 大数据可视化的主要进展 224
7.5.2 大数据可视化的发展趋势 226
7.6 数据可视化流程 228
7.7 数据可视化原则 230
7.8 数据可视化工具 230
7.9 时空数据可视化 239
7.9.1 时变数据可视化 239
7.9.2 空间数据可视化 242
7.10 非时空数据可视化 242
7.10.1 文本数据可视化 242
7.10.2 复杂高维数据可视化 242
7.11 数据可视化交互 246
7.11.1 交互延时 247
7.11.2 交互分类 247
7.11.3 交互技术 248
7.12 本章小结 248
拓展阅读 248
本章习题 250
第8章 大数据应用 251
8.1 大数据的行业应用 251
8.2 智慧城市 253
8.2.1 智慧城市概述及建设内容 253
8.2.2 智能交通与大数据 254
8.2.3 环保监测与大数据 255
8.2.4 城市规划与大数据 256
8.2.5 公共安全与大数据 257
8.3 自动驾驶汽车 258
8.3.1 自动驾驶汽车的发展阶段 259
8.3.2 软件定义汽车 260
8.3.3 车联网与大数据 262
8.3.4 无人驾驶汽车与大数据 265
8.4 本章小结 267
拓展阅读: 267
本章习题: 270
第9章 大数据安全 271
9.1 物理安全 272
9.2.1 物理安全管理 273
9.2.2 物理安全技术 274
9.2 数据安全 275
9.3.1 面临的问题 276
9.3.2 安全机制和解决方案 278
9.3 虚拟化安全 281
9.4 安全监管 282
9.5 应用安全 283
9.6 业务安全 283
9.7 大数据保护 284
9.8 本章小结 285
拓展阅读: 285
本章习题: 288