随着数据时代和智能社会的到来,大数据基本原理和技术应用已成为各行各业专业人员必修的一门课程。本书依据新工科教育理念和其他专业的广泛需求,综合了国内外书籍、网站的相关内容,以及具体的课程实践和人才培养的要求进行编写。第2版加入了新的案例。
本书共12章,包括大数据基础、大数据下的云计算、大数据处理、数据分析与数据挖掘、大数据安全、数据可视化、大数据与社交媒体的融合、健康大数据在公共卫生领域的应用、大数据在碳减排中的应用、大数据对金融业的挑战与机遇、大数据在制造业中的应用和大数据在旅游业中的应用,既包括了大数据的基本知识和技术,也涵盖了大数据在典型行业中的具体应用,读者通过学习能更深入地认识和体会大数据的应用价值。每章都设有习题与实践,便于读者巩固学习内容。
本书是为高等院校各专业学习 大数据基础课程而编写的,特别适合理工科学生,同时也适合人文社会科学学科相关专业的学生学习,还可作为在职人士的参考书。
配套资源:微课视频、电子课件、教学大纲、教学日历、试卷、实验
本书特色:
信息技术新工科产学研联盟数据科学与大数据技术工作委员会 推荐教材,天津市高校课程思政优秀教材。
既包括了大数据的基本知识和技术,也涵盖了大数据在典型行业中的具体应用。
增加体现新工科的学习要素。机械、建筑、环境生物及桥梁等领域尽量引入一些案例,使初学者能够在行业领域中利用好该领域的数据和数据资源。
思政元素渗透其中。本次改版加入了大数据学习中的思政元素。读者在学习的同时,其人生观、价值观和社会责任感等可得以提升。
关于分析大数据的工具软件,在相关章节中会示例性地引导读者入门,深入地学习和研究要在专门的课程中去展开。
本书第2版遵循教育教学规律和人才培养规律,体现先进教育理念,适应高等学校多样化人才培养类型需求,反映人才培养模式创新和教学改革新成果,将知识传授和能力培养相结合,激发学生对大数据的理论、方法进一步学习的热情,切实提升教材育人的引领与带动作用。
本书科学阐述了大数据的基本概念、基础知识、基本方法,结构设计合理,反复推敲并精选案例,注重吸纳学科和行业的新理论、新知识、新技术,及时满足经济社会发展和科技进步对人才培养提出的新要求。
本书第1版得到了广大读者的厚爱,但同时也存在一些不足。为改进不足、提升品质,我们梳理了该书的诞生过程,如图1所示。以此感谢所有的相关人员,是时代造就了这本书,是环境给了我们营养,学习新知识、应用新技术是编者与读者的共同愿望。
在数智时代发展的过程中,大数据的新方法、新应用更需要归纳和提炼,因此更新后的内容迫切需要与读者见面。
在整体结构上,第2版体现了以下布局和更新:
1)增加体现新工科的学习要素。新工科紧扣国家发展战略,这次改版增加了相应的内容,例如,工科学生涉及的机械、建筑、环境生物及桥梁等领域,尽量引入一些案例,使初学者能够通过本书的引导,进一步在行业领域中利用好该领域的数据和数据资源。
2)安排了开篇引例和章后综合案例。第2版增加了大量的社会实践案例,这些案例分布在每章的开篇和结尾。每一案例都要求读者去思考一些问题,这些案例突出反映了各个领域中的一些大数据应用,是非常好的教学示例。
3)增加了碳减排章节。减少碳排放是国家战略,2021年,碳排放问题已经被提到议事日程,动员全民认识碳达峰和碳中和的基本概念及常识,碳排放中的大数据问题繁多,在这部分我们希望能够给读者介绍一些碳达峰和碳中和的基本概念、原理和技术。
4)思政元素渗透其中。本次改版加入了大数据学习中的思政元素。有些章节,特别是在章首语、节首语中,加入了思政元素,读者在学习的同时,其人生观、价值观和社会责任感等可得以提升。
5)更强调引领、入门作用。学习 大数据导论会涉及一些工具软件。关于分析大数据的工具软件,在相关章节中会示例性地引导读者入门,深入地学习和研究要在专门的课程中去展开。本书对部分工具软件只进行入门介绍,起到抛砖引玉的作用。
通过增加新内容,本书内容更加系统化和专业化,紧跟新工科以及其他学科的发展,提升了实用性和可操作性。
第2版在编写过程中得到多方帮助,感谢郝建伟编辑的鼎力支持,感谢出版社同仁。感谢天津财经大学校长刘金兰教授对大数据理论、技术学习的倡导。
第2版的编者为天津财经大学管理科学与工程学院和统计学院的教师及研究生。本书由杨尊琦担任主编。第1、3章由田绍娟改写,第2章由周新雨改写,第4章由王红敬改写,第5、12章由王静改写,第6、11章由杨尊琦改写,第7章由马家骥改写,第8章由吴畅改写,第9章由李旭阳编写,第10章由刘帅改写。
由于编者知识有限,书中难免有不当之处、不严谨之处,还请同行及广大读者给予指正,我们将十分感谢。
第2版前言
第1版前言
第1章大数据基础
11大数据时代
111大数据时代的技术基础
112大数据时代的变革
113信息技术(IT)向数据技术(DT)的转变
114大数据的价值
12什么是大数据
121数据基本知识
122大数据的来源及定义
123大数据的特征、维度及技术
13大数据结构类型
14大数据应用
141个人生活运用
142企业应用
143政府部门应用
15数据科学和大数据技术
151数据科学
152大数据技术与工具
16习题与实践
参考文献
第2章大数据下的云计算
21云计算概述
211云计算的定义
212云计算的特征
213云计算的体系架构
214云计算的类型划分
215云计算的服务模式
22云计算技术
221虚拟化技术
222并行计算技术
223海量数据管理技术
224海量数据存储技术
23云计算与云存储
231云存储的概述
232云存储的存储方式
233云存储与云计算的关系
24云计算与超算
241超算的概述与应用
242超算与云计算的关系
25云计算与大数据
251云计算与大数据的关系
252云计算与大数据的结合
26习题与实践
参考文献
第3章大数据处理
31数据采集
311数据采集方法
312数据质量评估
313数据质量影响因素
32数据清洗
321处理残缺数据
322处理噪声数据
323处理冗余数据
33数据变换
331属性类型变换
332属性值变换
34数据集成
341模式匹配与数据值冲突
342数据冗余
35数据归约
351维归约
352数值归约
36案例:Tableau Prep数据处理技术应用
37习题与实践
参考文献
第4章数据分析与数据挖掘
41数据分析概述
42常见数据分析方法
421层次分析法
422多元线性回归分析法
43数据挖掘基本概念
431数据挖掘的定义
432数据挖掘的分类
433数据挖掘的过程
44数据挖掘经典算法
441K-Means算法
442KNN算法
443随机森林
444循环神经网络
45习题与实践
参考文献
第5章大数据安全
51安全与隐私问题凸显
511网络安全漏洞
512个人隐私泄露
52大数据时代的安全挑战
521信息安全的发展历程
522信息安全带来的挑战
53如何解决大数据安全问题
531大数据安全防护对策
532大数据安全防护关键技术
533数据治理与数据安全
54如何解决隐私保护问题
541隐私保护的政策法规
542隐私保护技术
543区块链技术与隐私保护
544联邦学习与隐私保护
55习题与实践
参考文献
第6章数据可视化
61数据可视化类型
611科学可视化
612信息可视化
613可视分析学
62数据可视化基础
621数据可视化流程
622数据处理和变换
623视觉编码
624统计图表
625视觉隐喻
63可视化评估
631评估分类
632评估方法
64可视化主要工具
641主要工具列举
642Tableau操作简介
65习题与实践
参考文献
第7章大数据与社交媒体的融合
71社交媒体概述
711社交媒体的定义
712社交媒体的发展
72社交媒体大数据的分析与挖掘
721基于用户的大数据分析
722基于关系的大数据分析
723基于内容的大数据分析
73社交媒体大数据的未来挑战
74社交媒体下大数据信息安全问题
741社交媒体导致的信息风险类型和形成原因
742社交媒体的信息风险治理方案
75习题与实践
参考文献
第8章健康大数据在公共卫生领域的应用
81健康大数据概述
811健康大数据的定义
812健康大数据的特点
813健康大数据的分类
82健康大数据研究现状
83健康大数据在公共卫生领域的应用
831疾病预测与预防
832医疗救治与医药研发
833健康监测管理与个性化医疗服务
834电子病历的发展
835疫情防控下大数据行程卡的使用
836远程会诊和智能医疗
84健康大数据在公共卫生领域的挑战
841健康大数据安全隐私问题
842标准化困境
843信息孤岛问题
844缺少复合型人才和专业化队伍
85习题与实践
参考文献
第9章大数据在碳减排中的应用
91碳排放的问题与现状
911双碳概念
912个人数据分析问题
913企业数据应用问题
914环境数据的发展方向
92大数据与双碳
921碳达峰 大数据
922碳中和 大数据
923智能监管 大数据
93案例与数据挖掘
94挑战与机遇
941物联网的模式
942数据科学的技术
943新能源科学与工程 大数据
95习题与实践
参考文献
第10章大数据对金融业的挑战与机遇
101金融大数据概述
1011什么是金融大数据
1012金融大数据对金融业的影响
1013金融大数据应用实施战略
102金融大数据的应用
103大数据与金融创新
1031金融创新的4个维度
1032金融创新中的模型和算法
104金融大数据案例
105习题与实践
参考文献
第11