“文明”是人类经过教化后达到的一种状态,代表着社会的进步。自人类社会发端以来,人类文明就进入了一个漫长的演进过程。从原始文明、农业文明、工业文明到数字文明,每一次新文明的诞生都代表着文明形态的重塑和社会的变更。数字文明是一种基于大数据、云计算、物联网、区块链等新一代技术,以高科技为主要特征的文明,其核心是网络化、信息化与智能化的深度融合。它在提高生产力水平、丰富物质供给的同时,也塑造了一个全新的人类文明形态。 “大数据导论”是一门知识性和应用性都很强的课程。本书针对各专业大学生的大数据通识教育需求,系统、全面地介绍关于大数据技术及其应用的基础知识和技能,包括走进数字文明、数字化转型与数字经济、大数据思维变革、大数据商业规则、大数据促进医疗与健康、大数据与城市大脑、大数据可视化、大数据预测分析、大数据处理与存储、大数据与云计算、大数据与人工智能、大数据安全与法律、数据科学与职业技能以及大数据的未来等内容,具有较强的可读性和实用性。
【内容特点】
(1)内容全面,结构合理:每章内容分导读案例、理论知识、应用、习题各部分。
(2)取长补短,讲清原理:力图在通俗易懂讲解理论知识的基础上,丰富实用性案例,清晰、全面地介绍大数据技术与应用知识。
(3)视频资源充足,助力教师丰富教学方式。
【资源特点】除了配套常规资源(如PPT、教学大纲、习题答案)外,还针对全书录制教学视频,协助解决当前网课需求。
【服务特点】作者可以提供直播以及QQ服务群等支持。
史麒豪,浙江大学计算机科学与技术专业博士,学科博士后。长期从事社交影响力传播、图传播算法与博弈论研究,已在ICDE,AAAI,WWW,CIKM,ICDM 等相关国际顶级会议与KBS,ESWA,Neurocomputing等高水平SCI 期刊发表十余篇文章。同时长期担任AAAI,KDD,TNNLS,TKDE等国际会议与期刊的审稿人。主持和参与了多项国家级、省部级课题及企业、政府信息化项目。其中作为项目负责人,主持国家自然科学基金项目1项。作为课题骨干,参与获2018 年浙江省科学技术一等奖的省部级课题1项。 扬武剑 男,副教授,浙大城市学院城市大脑研究院院长助理,浙大城市学院城市数字治理创新班负责人。 主要从事城市数字治理、人工智能、电子商务等领域学术理论和关键技术研究,主持主参科研项目多项,其中国家级2项,省部级6项,重大横向8项,发表SCI/EI收录论文10多篇,科研成果获浙江省科技进步奖三等奖2项、华夏建设科学技术奖三等奖2项。主持教育部产学合作协同育人项目2项、省级虚拟仿真实验教学项目1项,获学校教学质量奖20多次。主编出版高等院校实践类教程《电子商务概论》和高等院校“十二五”规划教材《电子商务实务》
【导读案例】“数字文明”到底是个什么文明? 1
1.1 数字劳动推动数字文明 4
1.2 大数据时代 5
1.2.1 天文学——信息爆炸的起源 6
1.2.2 爆发式增长的数据量 7
1.2.3 大数据的定义 9
1.2.4 用3V描述大数据特征 9
1.2.5 广义的大数据 11
1.3 大数据结构类型 12
1.4 大数据的发展 13
1.4.1 硬件性价比提高与软件技术进步 13
1.4.2 云计算的普及 14
1.4.3 大数据作为BI的进化形式 14
1.4.4 从交易数据到交互数据 15
【习题】 16
【导读案例】数字文明如何作答四问? 19
2.1 什么是数字化 21
2.1.1 数字化的概念 21
2.1.2 从历史发展看数字化 23
2.1.3 从技术层面看数字化 25
2.1.4 数字化的意义 26
2.2 数字化转型 26
2.2.1 购物流程的变化 27
2.2.2 信息化与数字化 27
2.2.3 数字化企业解决方案 28
2.3 数字孪生 29
2.3.1 数字孪生的原理 29
2.3.2 数据孪生基本组成 30
2.3.3 数字孪生的研究 31
2.3.4 数字孪生与数字生产线 31
2.4 数字经济 34
2.4.1 数字经济的概念 34
2.4.2 数字经济的要素 35
2.4.3 数字经济的研究 36
【习题】 37
【导读案例】购物网站的推荐系统 40
3.1 大数据思维 43
3.2 转变之一:样本=总体 44
3.2.1 小数据时代的随机采样 45
3.2.2 全数据模式:样本=总体 47
3.3 转变之二:接受数据的混杂性 48
3.3.1 允许不精确 48
3.3.2 大数据简单算法与小数据复杂算法 50
3.3.3 纷繁的数据越多越好 51
3.3.4 混杂性是标准途径 52
3.4 转变之三:数据的相关关系 53
3.4.1 关联物,预测的关键 53
3.4.2 “是什么”,而不是“为什么” 55
3.4.3 通过因果关系了解世界 56
3.4.4 通过相关关系了解世界 57
【习题】 58
【导读案例】准确预测地震 59
4.1 大数据的跨界年度 60
4.1.1 商业动机和驱动力 61
4.1.2 企业的大数据行动 62
4.1.3 数据驱动的企业文化 63
4.2 将信息变成竞争优势 65
4.2.1 数据价格下降而需求上升 66
4.2.2 大数据应用程序兴起 66
4.2.3 企业构建大数据战略 67
4.3 大数据营销 68
4.3.1 像媒体公司一样思考 68
4.3.2 面对新的机遇与挑战 69
4.3.3 自动化营销 70
4.3.4 创建高容量和高价值内容 71
4.3.5 用投资回报率评价营销效果 71
4.4 内容创作与众包 72
【习题】 73
【导读案例】大数据变革公共卫生 76
5.1 大数据与循证医学 78
5.2 大数据带来的医疗新突破 80
5.2.1 量化自我,关注个人健康 80
5.2.2 可穿戴的个人健康设备 81
5.2.3 大数据时代的医疗信息 83
5.2.4 CellMiner,对抗癌症的新工具 84
5.3 医疗信息数字化 86
5.4 搜索:超级大数据的最佳伙伴 88
5.5 数据决策的崛起 89
5.5.1 数据辅助诊断 90
5.5.2 你考虑过……了吗 90
5.5.3 大数据分析使数据决策崛起 92
【习题】 92
【导读案例】城市大脑是这样炼成的 95
6.1 智慧交通驶入快车道 98
6.1.1 导航和感知更精准 99
6.1.2 机场管理更精细 99
6.1.3 数字航道动态监测 100
6.1.4 创新驱动赋能增效 101
6.2 城市大脑建设 102
6.2.1 对城市大脑的认识 102
6.2.2 城市大脑产生根源和背景 103
6.2.3 城市大脑的未来目标 104
6.2.4 城市大脑的重要性 105
6.3 大数据——智慧城市的“核心” 105
6.3.1 城市大脑与数据可视化 106
6.3.2 城市大脑与数据共享 106
6.3.3 大数据驱动城市大脑 106
6.4 城市大数据治理 107
6.4.1 数据治理内容 107
6.4.2 数据治理类型 108
6.4.3 元数据管理 110
6.4.4 数据治理方案 111
6.4.5 数据治理模型 112
6.4.6 数据治理工具 113
【习题】 113
【导读案例】南丁格尔“极区图” 116
7.1 数据与可视化 118
7.1.1 数据的可变性 118
7.1.2 数据的不确定性 120
7.1.3 数据的背景信息 120
7.1.4 打造最好的可视化效果 122
7.2 数据与图形 122
7.2.1 数据与走势 123
7.2.2 视觉信息的科学解释 124
7.3 视觉分析 125
7.3.1 热点图 125
7.3.2 时间序列图 126
7.3.3 网络图 126
7.3.4 空间数据制图 127
7.4 实时可视化 128
7.5 数据可视化的运用 128
【作 业】 130
【导读案例】葡萄酒的品质 133
8.1 什么是预测分析 137
8.1 1 预测分析的作用 138
8.1.2 数据具有内在预测性 140
8.1.3 定量分析与定性分析 140
8.2 统计分析 141
8.2.1 A/B测试 141
8.2.2 相关性分析 142
8.2.3 回归性分析 143
8.3 数据挖掘 144
8.4 大数据分析生命周期 145
8.4.1 商业案例评估 145
8.4.2 数据标识 146
8.4.3 数据获取与过滤 147
8.4.4 数据提取 147
8.4.5 数据验证与清理 148
8.4.6 数据聚合与表示 149
8.4.7 数据分析 150
8.4.8 数据可视化 150
8.4.9 分析结果的使用 151
【习题】 151
【导读案例】什么是开源? 154
9.1 开源技术商业支援 156
9.2 Hadoop基础 157
9.2.1 Hadoop的由来 157
9.2.2 Hadoop的优势 158
9.3 分布式处理 159
9.3.1 分布式系统 159
9.3.2 分布式文件系统 160
9.3.3 并行与分布式数据处理 160
9.3.4 分布式存储 161
9.4 NoSQL数据库 161
9.4.1 主要特征 162
9.4.2 键-值存储 164
9.4.3 文档存储 165
9.4.4 列簇存储 166
9.4.5 图存储 167
9.4.6 与RDBMS的主要区别 168
9.5 NewSQL数据库 169
【习题】 170
【导读案例】数字经济时代云发展趋势 173
10.1 与数字化相关的技术 175
10.2 云计算概述 177
10.2.1 云计算定义 177
10.2.2 云基础设施 179
10.3 计算虚拟化 180
10.4 网络虚拟化 181
10.4.1 网卡虚拟化 181
10.4.2 虚拟交换机 182
10.4.3 接入层虚拟化 182
10.4.4 覆盖网络虚拟化 183
10.4.5 软件定义网络(SDN) 183
10.5 存储虚拟化 184
10.6 云计算服务形式 185
10.6.1 云计算的服务层次 185
10.6.2 大数据与云相辅相成 186
10.6.3 云的挑战 187
10.7 大数据与云计算 187
【习题】 188
【导读案例】大数据与人工智能的关系 191
11.1 人工智能概述 192
11.2 机器学习基础 193
11.2.1 机器学习的定义 194
11.2.2 基本结构 195
11.2.3 研究领域 196
11.3 机器学习分类 196
11.3.1 基于学习策略分类 196
11.3.2 基于知识表示形式分类 197
11.3.3 按应用领域分类 198
11.3.4 按学习形式分类 198
11.4 神经网络与深度学习 201
11.4.1 人工神经网络的特征 201
11.4.2 深度学习的意义 202
11.4.3 深度学习的方法 203
11.4.4 深度学习的实现 205
11.5 机器学习与深度学习 207
【习题】 208
【导读案例】中国《个人信息保护法》施行 211
12.1 大数据的安全问题 213
12.1.1 采集汇聚安全 213
12.1.2 存储处理安全 214
12.1.3 共享使用安全 215
12.2 大数据的管理维度 216
12.3 大数据的安全体系 216
12.3.1 安全技术体系 217
12.3.2 大数据安全治理 218
12.3.3 大数据安全测评 218
12.3.4 大数据安全运维 218
12.3.5 以数据为中心的安全要素 219
12.4 大数据伦理与法规 220
12.4.1 大数据的伦理问题 220
12.4.2 大数据的伦理规则 221
12.4.3 数据安全法施行 222
【习题】 223
【导读案例】得数据者得天下 226
13.1 计算思维 229
13.1.1 计算思维的概念 229
13.1.2 计算思维的作用 230
13.1.3 计算思维的特点 232
13.2 数据工程师的社会责任 233
13.2.1 职业化和道德责任 233
13.2.2 ACM职业道德责任 234
13.2.3 软件工程师道德基础 235
13.3 数据科学与职业技能 236
13.3.1 数据科学重要技能 236
13.3.2 重要数据科学技能 237
13.3.3 技能因职业角色而异 238
13.3.4 大数据生态系统关键角色 240
【习题】 241
【导读案例】加快建立完善数据产权制度 244
14.1 连接开放数据 245
14.1.1 LOD运动 246
14.1.2 利用开放数据的创业型公司 247
14.2 大数据资产的崛起 248
14.2.1 数据市场的兴起 248
14.2.2 不同的商业模式 248
14.2.3 将原创数据变为增值数据 249
14.2.4 大数据催生新的应用程序 249
14.2.5 在大数据“空白”中提取最大价值 250
14.3 大数据发展趋势 250
14.3.1 信息领域的突破性发展 251
14.3.2 未来发展趋势的专家预测 252
14.4 大数据技术展望 254
14.4.1 数据管理仍然很难 254
14.4.2 数据孤岛继续激增 254
14.4.3 流媒体分析的突破 255
14.4.4 技术发展带来技能转变 255
14.4.5 “快速数据”和“可操作数据” 256
14.4.6 预测分析将数据转化为预测 256
【习题】 257
【导读案例】“数字文明”到底是个什么文明? 1
1.1 数字劳动推动数字文明 4
1.2 大数据时代 5
1.2.1 天文学——信息爆炸的起源 6
1.2.2 爆发式增长的数据量 7
1.2.3 大数据的定义 9
1.2.4 用3V描述大数据特征 9
1.2.5 广义的大数据 11
1.3 大数据结构类型 12
1.4 大数据的发展 13
1.4.1 硬件性价比提高与软件技术进步 13
1.4.2 云计算的普及 14
1.4.3 大数据作为BI的进化形式 14
1.4.4 从交易数据到交互数据 15
【习题】 16
【导读案例】数字文明如何作答四问? 19
2.1 什么是数字化 21
2.1.1 数字化的概念 21
2.1.2 从历史发展看数字化 23
2.1.3 从技术层面看数字化 25
2.1.4 数字化的意义 26
2.2 数字化转型 26
2.2.1 购物流程的变化 27
2.2.2 信息化与数字化 27
2.2.3 数字化企业解决方案 28
2.3 数字孪生 29
2.3.1 数字孪生的原理 29
2.3.2 数据孪生基本组成 30
2.3.3 数字孪生的研究 31
2.3.4 数字孪生与数字生产线 31
2.4 数字经济 34
2.4.1 数字经济的概念 34
2.4.2 数字经济的要素 35
2.4.3 数字经济的研究 36
【习题】 37
【导读案例】购物网站的推荐系统 40
3.1 大数据思维 43
3.2 转变之一:样本=总体 44
3.2.1 小数据时代的随机采样 45
3.2.2 全数据模式:样本=总体 47
3.3 转变之二:接受数据的混杂性 48
3.3.1 允许不精确 48
3.3.2 大数据简单算法与小数据复杂算法 50
3.3.3 纷繁的数据越多越好 51
3.3.4 混杂性是标准途径 52
3.4 转变之三:数据的相关关系 53
3.4.1 关联物,预测的关键 53
3.4.2 “是什么”,而不是“为什么” 55
3.4.3 通过因果关系了解世界 56
3.4.4 通过相关关系了解世界 57
【习题】 58
【导读案例】准确预测地震 59
4.1 大数据的跨界年度 60
4.1.1 商业动机和驱动力 61
4.1.2 企业的大数据行动 62
4.1.3 数据驱动的企业文化 63
4.2 将信息变成竞争优势 65
4.2.1 数据价格下降而需求上升 66
4.2.2 大数据应用程序兴起 66
4.2.3 企业构建大数据战略 67
4.3 大数据营销 68
4.3.1 像媒体公司一样思考 68
4.3.2 面对新的机遇与挑战 69
4.3.3 自动化营销 70
4.3.4 创建高容量和高价值内容 71
4.3.5 用投资回报率评价营销效果 71
4.4 内容创作与众包 72
【习题】 73
【导读案例】大数据变革公共卫生 76
5.1 大数据与循证医学 78
5.2 大数据带来的医疗新突破 80
5.2.1 量化自我,关注个人健康 80
5.2.2 可穿戴的个人健康设备 81
5.2.3 大数据时代的医疗信息 83
5.2.4 CellMiner,对抗癌症的新工具 84
5.3 医疗信息数字化 86
5.4 搜索:超级大数据的最佳伙伴 88
5.5 数据决策的崛起 89
5.5.1 数据辅助诊断 90
5.5.2 你考虑过……了吗 90
5.5.3 大数据分析使数据决策崛起 92
【习题】 92
【导读案例】城市大脑是这样炼成的 95
6.1 智慧交通驶入快车道 98
6.1.1 导航和感知更精准 99
6.1.2 机场管理更精细 99
6.1.3 数字航道动态监测 100
6.1.4 创新驱动赋能增效 101
6.2 城市大脑建设 102
6.2.1 对城市大脑的认识 102
6.2.2 城市大脑产生根源和背景 103
6.2.3 城市大脑的未来目标 104
6.2.4 城市大脑的重要性 105
6.3 大数据——智慧城市的“核心” 105
6.3.1 城市大脑与数据可视化 106
6.3.2 城市大脑与数据共享 106
6.3.3 大数据驱动城市大脑 106
6.4 城市大数据治理 107
6.4.1 数据治理内容 107
6.4.2 数据治理类型 108
6.4.3 元数据管理 110
6.4.4 数据治理方案 111
6.4.5 数据治理模型 112
6.4.6 数据治理工具 113
【习题】 113
【导读案例】南丁格尔“极区图” 116
7.1 数据与可视化 118
7.1.1 数据的可变性 118
7.1.2 数据的不确定性 120
7.1.3 数据的背景信息 120
7.1.4 打造最好的可视化效果 122
7.2 数据与图形 122
7.2.1 数据与走势 123
7.2.2 视觉信息的科学解释 124
7.3 视觉分析 125
7.3.1 热点图 125
7.3.2 时间序列图 126
7.3.3 网络图 126
7.3.4 空间数据制图 127
7.4 实时可视化 128
7.5 数据可视化的运用 128
【作 业】 130
【导读案例】葡萄酒的品质 133
8.1 什么是预测分析 137
8.1 1 预测分析的作用 138
8.1.2 数据具有内在预测性 140
8.1.3 定量分析与定性分析 140
8.2 统计分析 141
8.2.1 A/B测试 141
8.2.2 相关性分析 142
8.2.3 回归性分析 143
8.3 数据挖掘 144
8.4 大数据分析生命周期 145
8.4.1 商业案例评估 145
8.4.2 数据标识 146
8.4.3 数据获取与过滤 147
8.4.4 数据提取 147
8.4.5 数据验证与清理 148
8.4.6 数据聚合与表示 149
8.4.7 数据分析 150
8.4.8 数据可视化 150
8.4.9 分析结果的使用 151
【习题】 151
【导读案例】什么是开源? 154
9.1 开源技术商业支援 156
9.2 Hadoop基础 157
9.2.1 Hadoop的由来 157
9.2.2 Hadoop的优势 158
9.3 分布式处理 159
9.3.1 分布式系统 159
9.3.2 分布式文件系统 160
9.3.3 并行与分布式数据处理 160
9.3.4 分布式存储 161
9.4 NoSQL数据库 161
9.4.1 主要特征 162
9.4.2 键-值存储 164
9.4.3 文档存储 165
9.4.4 列簇存储 166
9.4.5 图存储 167
9.4.6 与RDBMS的主要区别 168
9.5 NewSQL数据库 169
【习题】 170
【导读案例】数字经济时代云发展趋势 173
10.1 与数字化相关的技术 175
10.2 云计算概述 177
10.2.1 云计算定义 177
10.2.2 云基础设施 179
10.3 计算虚拟化 180
10.4 网络虚拟化 181
10.4.1 网卡虚拟化 181
10.4.2 虚拟交换机 182
10.4.3 接入层虚拟化 182
10.4.4 覆盖网络虚拟化 183
10.4.5 软件定义网络(SDN) 183
10.5 存储虚拟化 184
10.6 云计算服务形式 185
10.6.1 云计算的服务层次 185
10.6.2 大数据与云相辅相成 186
10.6.3 云的挑战 187
10.7 大数据与云计算 187
【习题】 188
【导读案例】大数据与人工智能的关系 191
11.1 人工智能概述 192
11.2 机器学习基础 193
11.2.1 机器学习的定义 194
11.2.2 基本结构 195
11.2.3 研究领域 196
11.3 机器学习分类 196
11.3.1 基于学习策略分类 196
11.3.2 基于知识表示形式分类 197
11.3.3 按应用领域分类 198
11.3.4 按学习形式分类 198
11.4 神经网络与深度学习 201
11.4.1 人工神经网络的特征 201
11.4.2 深度学习的意义 202
11.4.3 深度学习的方法 203
11.4.4 深度学习的实现 205
11.5 机器学习与深度学习 207
【习题】 208
【导读案例】中国《个人信息保护法》施行 211
12.1 大数据的安全问题 213
12.1.1 采集汇聚安全 213
12.1.2 存储处理安全 214
12.1.3 共享使用安全 215
12.2 大数据的管理维度 216
12.3 大数据的安全体系 216
12.3.1 安全技术体系 217
12.3.2 大数据安全治理 218
12.3.3 大数据安全测评 218
12.3.4 大数据安全运维 218
12.3.5 以数据为中心的安全要素 219
12.4 大数据伦理与法规 220
12.4.1 大数据的伦理问题 220
12.4.2 大数据的伦理规则 221
12.4.3 数据安全法施行 222
【习题】 223
【导读案例】得数据者得天下 226
13.1 计算思维 229
13.1.1 计算思维的概念 229
13.1.2 计算思维的作用 230
13.1.3 计算思维的特点 232
13.2 数据工程师的社会责任 233
13.2.1 职业化和道德责任 233
13.2.2 ACM职业道德责任 234
13.2.3 软件工程师道德基础 235
13.3 数据科学与职业技能 236
13.3.1 数据科学重要技能 236
13.3.2 重要数据科学技能 237
13.3.3 技能因职业角色而异 238
13.3.4 大数据生态系统关键角色 240
【习题】 241
【导读案例】加快建立完善数据产权制度 244
14.1 连接开放数据 245
14.1.1 LOD运动 246
14.1.2 利用开放数据的创业型公司 247
14.2 大数据资产的崛起 248
14.2.1 数据市场的兴起 248
14.2.2 不同的商业模式 248
14.2.3 将原创数据变为增值数据 249
14.2.4 大数据催生新的应用程序 249
14.2.5 在大数据“空白”中提取最大价值 250
14.3 大数据发展趋势 250
14.3.1 信息领域的突破性发展 251
14.3.2 未来发展趋势的专家预测 252
14.4 大数据技术展望 254
14.4.1 数据管理仍然很难 254
14.4.2 数据孤岛继续激增 254
14.4.3 流媒体分析的突破 255
14.4.4 技术发展带来技能转变 255
14.4.5 “快速数据”和“可操作数据” 256
14.4.6 预测分析将数据转化为预测 256
【习题】 257