《案例驱动的大数据原理技术及应用》从大数据的定义、特征、关键技术及其平台和主要应用出发,密切结合相关案例,揭示了案例对于大数据的驱动关系。针对这一关系,书中分别介绍了Spark系统和编程方式,大数据分析基础算法和实例,面向大数据的流数据分析算法和实例、图算法和实例,大数据应用编程案例,基于时间序列数据的预测等内容。
《案例驱动的大数据原理技术及应用》可作为计算机专业的教材,也可作为计算机工作者、爱好者的学习参考用书。
在构思一套新的计算机科学技术系列教材时,会有很多考虑。其一,计算机科学提供了一个系统建模、问题求解的新模式。计算机专业的本科毕业生应熟练地将计算思维用于问题求解,因此,一套计算机科学技术系列教材也应将计算思维系统地贯穿于整套教材的编写。其二,计算技术在推动社会、科技高速发展的同时,其自身也经历着从以计算为中心到以数据和交互为中心的范式转变。计算机专业的本科毕业生若能了解有关数据获取,存储,分析,利用的基本方法、技术、工具,定能在其择业和职业发展中拥有更多的机会,一套面向这一专业需求、围绕数据思维设计的计算机科学技术系列教材就会受到广大师生的欢迎。其三,在一个更加基础的层面,一套新的计算机科学技术系列教材应在重新审视本学科核心理论的基础上,在分析数据科学、人工智能、密码与信息安全、计算经济学、甚至量子计算等交叉学科的基础上,为本专业提供一个理论和数学基础课程设计,以反应计算机学科及其交叉学科对算法、计算复杂性、概率与统计、线性代数、矩阵分析、高等代数、组合数学、博弈论等数学分支的依赖。
计算能力的提高不仅在加大计算机科学技术影响力的广度,还在加速其影响力的深度。计算机教育界目前进行的“计算机+X”和“X+计算机”的讨论旨在推动计算机专业建设,并及时反应这一影响的广度和深度。我认为这一切都源于一个广为接受的事实:计算机科学与技术是继科学实验和数学之后,推动人类社会和科技进步的第三股力量。正如科学实验为自然科学提供了研究手段,数学为工程提供了建模方法,概率与统计为经济学提供了工具,计算机科学与技术为自然科学、工程、经济学提供了全新的研究手段、建模方法和工具。从一个高等教育工作者的角度看,这第三股力量驱动着老学科的改造和新专业的诞生。
第1章 大数据基本概念
1.1 大数据的定义与特征
1.2 大数据的关键技术
1.3 主流的大数据平台
1.4 大数据的主要应用
1.5 本章小结
1.6 习题
第2章 Spark系统与编程简介
2.1 Spark概述
2.2 Spark系统架构及运行模式
2.3 Spark系统安装
2.4 Python编程基础
2.5 Spark的编程方式
2.6 Spark的监控管理
2.7 Spark RDD
2.8 编程的基本步骤
2.9 本章小结
2.10 习题
第3章 大数据分析基础算法与实例
3.1 大数据分析概述
3.2 Spark基础算法
3.3 实例:词频统计
3.4 实例:圆周率的计算
3.5 本章小结
3.6 习题
附录
第4章 面向大数据的机器学习算法与实例
4.1 机器学习简介
4.2 Spark M Llib介绍
4.3 机器学习应用实例
4.4 本章小结
4.5 习题
第5章 面向大数据的流数据分析算法与实例
5.1 Spark Streaming简介
5.2 spark streaming架构
5.3 Spark Streaming运行原理
5.4 spark streaming实例
5.5 容错、持久化和性能优化
5.6 本章小结
5.7 习题
第6章 面向大数据的图算法与实例
6.1 图的基本概念
6.2 图计算的同步机制
6.3 GraphFrames安装和基础使用
6.5 最短路径算法及实例
6.6 网页排名
6.7 本章小结
6.8 习题
第7章 大数据应用编程案例
7.1 基于遥感数据的海冰/雪检测
7.2 基于时间序列数据的预测
7.3 本章小结
7.4 习题
参考文献