随着互联网技术的发展,在新经济的大时代背景下,各行各业都催生出众多的全新业态。伴随大数据、人工智能、区块链等技术的加持,这些业态划分也越来越精细,社会活动的整体效率也越来越高。然而,这一切都不开数据,特别是高质量的数据。本书围绕智能数据分析与应用处理业务背景及相关技术,以学习情境的方式介绍了:数据分析工具Beautiful Soup与XPath和数据采集工具Requests;根据数据规模大小和格式,可采用Excel、Tabula或Kettle进行数据处理;数据分析工具NumPy、Pandas和可视化工具Matplotlib,通过Matplotlib进行数据可视化,使得NumPy、Pandas的处理结果更容易观察、识别。通过基于机器学习算法模型的推荐系统的构建过程,介绍了主流的数据分析框架Spark;通过基于深度学习技术的人脸识别系统的构建过程,介绍了图像数据的采集、处理、分析,并应用到神经网络的整个过程,即从数据采集到应用的一个闭环过程。本书理论分析相对较少,侧重于动手实践,适用于应用型本科、高职高专大数据专业学生和希望快速进入大数据、机器学习、人工智能领域的读者。
唐春玲,1981年2月出生,女,吉林省汪清人,工学硕士,现为重庆工商职业学院电子信息工程学院副教授,国家"双高计划”高水平专业群建设小组核心成员,校专业带头人。主要从事软件技术,数字信号处理,大数据及人工智能算法等方向研究。曾获重庆市教学成果奖两项,主持市教委科研项目两项、出版3本教材,主持两门校网络课程资源建设,发表论文10余篇。
导 言 1
单元1 采集网络数据 6
学习情境1.1 使用Beautiful Soup库与XPath语法解析网页 6
学习情境描述 6
学习目标 7
任务书 7
获取信息 7
工作计划 7
进行决策 8
知识准备 9
相关案例 12
工作实施 14
评价反馈 14
拓展思考 15
学习情境1.2 使用Requests采集网络数据 16
学习情境描述 16
学习目标 16
任务书 16
获取信息 16
工作计划 17
进行决策 18
知识准备 18
相关案例 22
工作实施 24
评价反馈 24
拓展思考 25
单元2 对数据进行处理 26
学习情境2.1 使用Excel处理数据 26
学习情境描述 26
学习目标 27
任务书 27
获取信息 27
工作计划 27
进行决策 28
知识准备 29
相关案例 32
工作实施 33
评价反馈 33
拓展思考 34
学习情境2.2 使用Tabula处理数据 35
学习情境描述 35
学习目标 35
任务书 35
获取信息 35
工作计划 36
进行决策 37
知识准备 37
相关案例 38
工作实施 39
评价反馈 40
拓展思考 41
学习情境2.3 使用Kettle处理数据 41
学习情境描述 41
学习目标 42
任务书 42
获取信息 42
工作计划 43
进行决策 44
知识准备 44
相关案例 60
工作实施 64
评价反馈 65
拓展思考 66
单元3 对数值数据进行分析 67
学习情境3.1 使用NumPy创建与索引复杂数据对象 67
学习情境描述 67
学习目标 68
任务书 68
获取信息 68
工作计划 68
进行决策 69
知识准备 70
相关案例 73
工作实施 74
评价反馈 75
拓展思考 76
学习情境3.2 对招聘数据的数组进行形态变换 76
学习情境描述 76
学习目标 77
任务书 77
获取信息 77
工作计划 77
进行决策 78
知识准备 79
相关案例 81
工作实施 82
评价反馈 83
拓展思考 84
学习情境3.3 读写招聘信息数据集 84
学习情境描述 84
学习目标 84
任务书 85
获取信息 85
工作计划 85
进行决策 86
知识准备 86
相关案例 88
工作实施 89
评价反馈 89
拓展思考 90
单元4 对数据进行统计及对相关性进行分析 91
学习情境4.1 使用Pandas访问不同的数据源 91
学习情境描述 91
学习目标 92
任务书 92
获取信息 92
工作计划 92
进行决策 93
知识准备 94
相关案例 96
工作实施 97
评价反馈 97
拓展思考 99
学习情境4.2 使用Pandas进行数据处理 99
学习情境描述 99
学习目标 99
任务书 99
获取信息 99
工作计划 100
进行决策 101
知识准备 101
相关案例 104
工作实施 105
评价反馈 105
拓展思考 106
学习情境4.3 使用Pandas分析招聘数据 107
学习情境描述 107
学习目标 107
任务书 107
获取信息 107
工作计划 108
进行决策 109
知识准备 109
相关案例 112
工作实施 114
评价反馈 114
拓展思考 115
单元5 数据可视化 116
学习情境5.1 掌握Matplotlib的基本应用 116
学习情境描述 116
学习目标 117
任务书 117
获取信息 117
工作计划 117
进行决策 118
知识准备 118
相关案例 127
工作实施 128
评价反馈 128
拓展思考 130
学习情境5.2 使用Matplotlib对招聘数据进行可视化分析 130
学习情境描述 130
学习目标 130
任务书 130
获取信息 131
工作计划 131
进行决策 132
知识准备 132
相关案例 136
工作实施 138
评价反馈 138
拓展思考 140
学习情境5.3 使用Seaborn对招聘数据进行进一步分析 140
学习情境描述 140
学习目标 140
任务书 141
获取信息 141
工作计划 141
进行决策 142
知识准备 143
相关案例 146
工作实施 148
评价反馈 148
拓展思考 149
单元6 使用机器学习算法模型构建推荐系统 150
学习情境6.1 了解机器学习的基本原理 150
学习情境描述 150
学习目标 151
任务书 151
获取信息 151
工作计划 152
进行决策 153
知识准备 153
相关案例 156
工作实施 159
评价反馈 160
拓展思考 161
学习情境6.2 使用Spark API进行数据分析 161
学习情境描述 161
学习目标 162
任务书 162
获取信息 162
工作计划 163
进行决策 164
知识准备 164
相关案例 171
工作实施 172
评价反馈 173
拓展思考 174
学习情境6.3 使用SparkMLib构建推荐系统 174
学习情境描述 174
学习目标 175
任务书 175
获取信息 175
工作计划 176
进行决策 177
知识准备 177
相关案例 181
工作实施 183
评价反馈 183
拓展思考 185
单元7 使用深度学习技术构建人脸识别系统 186
学习情境7.1 使用Keras构建神经网络 186
学习情境描述 186
学习目标 187
任务书 187
获取信息 187
工作计划 188
进行决策 189
知识准备 189
相关案例 192
工作实施 202
评价反馈 202
拓展思考 204
学习情境7.2 使用神经网络构建人脸识别系统 204
学习情境描述 204
学习目标 205
任务书 205
获取信息 205
工作计划 206
进行决策 207
知识准备 207
相关案例 218
工作实施 219
评价反馈 220
拓展思考 221