本书详细介绍机器学习主要算法,包括:C4.5决策树、k-均值(K-means)、支持向量机(SVM)、Apriori、最大期望值、PageRank算法、AdaBoost算法、k-近邻算法(kNN)、朴素贝叶斯算法和分类回归树算法以及神经网络和深度学习的简单介绍。
机器学习是人工智能研究领域中一个重要的方向,是一门研究机器怎样模拟或实现人类学习行为以获取新知识或技能,并重新组织已有知识结构使之不断改善自身性能的学科。机器学习算法在计算机视觉、数据挖掘、自然信息处理、个性化推荐等领域具有广泛的应用,不仅是计算机科学与技术、人工智能、数据科学领域专业人士的常用手段,还成为各行各业解决实际问题的有力工具。
本书深入浅出地介绍了机器学习的核心算法,为每个算法精心设计了应用案例,并基于Python给出相应算法案例的实现代码,通过对基本理论的介绍和案例的设计与实现,读者能对机器学习基本算法有一个较深入的理解,并能理论联系实际建立起使用机器学习方法解决实际问题的思路。
由于深度学习近年来在众多领域取得了飞跃性的进步和突破,解决了传统方法难以解决的问题,本书给出一定的篇幅专门介绍深度学习理论。飞桨是百度提供的国内首个开源深度学习框架,是最适合中国开发者和企业使用的深度学习工具,本书基于飞桨框架给出了深度学习应用案例的设计与实现过程。
本书适用于但不局限于对人工智能和机器学习算法感兴趣的读者,适合作为高等院校计算机科学与技术、人工智能、数据科学等专业相关课程的教材和人工智能通识教育的教材,也可供广大IT从业人员参考。
全书共15章,第1章至第5章由饶泓编写,第6、7章由段文影编写,第8、9章由樊莉莉编写,第10至11章由徐子晨编写,第12至15章由邱睿韫编写。饶泓负责(徐子晨、邱睿韫协助)全书的组织和统稿工作。由于作者水平有限,书中难免有错误与不妥之处,请读者多多指正。
作者
2023年10月
饶泓,女,1973年生,博士,南昌大学教授,现任南昌大学信息工程学院副院长,博士生导师。曾先后赴美国伊利诺伊州立大学、美国堪萨斯大学访学。主要研究方向为机器学习、数据挖掘、大数据处理算法及其应用。近年来致力于机器学习领域的多分类模型研究,并将机器学习理论应用于特种设备监测、大型桥梁健康监测及预测,网络广告的精准推荐、舆情监测与预测、自然语言理解等领域。
第1章 绪论 1
1.1 机器学习的定义 1
1.2 基本术语 2
1.3 模型评估与选择 3
1.3.1 经验误差与过拟合 3
1.3.2 评估方法 3
1.4 机器学习解决问题的基本思路 4
1.5 Python语言 5
1.5.1 Python简介 5
1.5.2 Python基础语法 5
1.5.3 NumPy 快速入门 12
1.5.4 Matplotlib 快速入门 16
1.6 习题 19
第2章 线性模型 21
2.1 基本形式 21
2.2 线性回归 21
2.3 逻辑回归 23
2.3.1 Logistic分布 24
2.3.2 逻辑回归与Sigmoid函数 24
2.3.3 基于最优化方法确定最佳回归系数 26
2.4 应用实例 27
2.4.1 线性回归波士顿房价预测 27
2.4.2 逻辑回归从疝气病症预测病马的死亡率 30
2.5 习题 33
第3章 朴素贝叶斯 35
3.1 朴素贝叶斯相关统计学知识 35
3.2 朴素贝叶斯法的学习与分类 37
3.2.1 基本方法 37
3.2.2 后验概率最大化的含义 38
3.2.3 朴素贝叶斯分类基本流程 39
3.3 极大似然估计 41
3.4 应用实例PC评论分类 44
3.5 习题 48
第4章 k-近邻算法 51
4.1 k-近邻算法概述 51
4.2 kNN算法主要步骤 52
4.2.1 距离度量 52
4.2.2 k值的选择 52
4.2.3 分类决策 53
4.3 应用实例鸢尾花分类 54
4.3.1 项目背景 54
4.3.2 读取数据与数据可视化 54
4.3.3 划分数据集 56
4.3.4 kNN算法 56
4.3.5 如何测试分类器 57
4.4 习题 58
第5章 决策树 59
5.1 决策树的基本概念 60
5.1.1 定义 60
5.1.2 决策树的构造 60
5.2 决策树学习基础算法 60
5.3 最优属性的选择 61
5.3.1 ID3信息增益(Gain) 61
5.3.2 C4.5信息增益率(Gain_ratio) 62
5.3.3 CART基尼指数(Gini_index) 63
5.4 决策树的剪枝 63
5.5 应用实例性别决策 64
5.6 Python实现过程 65
5.6.1 计算给定数据集的信息熵 65
5.6.2 数据集的划分 66
5.6.3 递归构建决策树 67
5.7 使用Matplotlib绘制决策树 69
5.7.1 Matplotlib注解 69
5.7.2 绘制决策树 69
5.8 习题 72
第6章 支持向量机 74
6.1 基于最大间隔分隔数据 74
6.2 寻找最大间隔 76
6.2.1 拉格朗日对偶性 78
6.2.2 SMO算法 82
6.3 软间隔最大化 83
6.4 核函数 85
6.5 径向基函数 88
6.6 应用实例 88
6.7 习题 95
第7章 神经网络 97
7.1 神经元模型 97
7.2 感知机与多层前馈神经网络 100
7.2.1 感知机 100
7.2.2 多层前馈神经网络 102
7.3 BP神经网络 103
7.4 其他常见神经网络 106
7.4.1 RBF网络 106
7.4.2 ART网络 106
7.4.3 SOM网络 107
7.4.4 级联相关网络 107
7.4.5 Elman网络 108
7.5 应用实例从疝气病症预测病马的死亡率 109
7.5.1 处理数据中的缺失值 109
7.5.2 用BP神经网络进行预测 110
7.6 习题 113
第8章 深度学习 115
8.1 卷积神经网络 116
8.2 典型的卷积神经网络 119
8.2.1 LeNet 119
8.2.2 AlexNet 120
8.2.3 VGGNet 120
8.2.4 ResNet 121
8.3 循环神经网络 123
8.4 深度学习框架 125
8.4.1 深度学习框架的作用 125
8.4.2 常见的深度学习框架 125
8.4.3 飞桨概述深度学习开源平台PaddlePaddle 126
8.5 线性回归小实例在飞桨深度学习平台的应用 129
8.6 深度学习应用实例口罩识别 139
8.7 习题 156
第9章 集成学习方法 157
9.1 集成学习的分类 157
9.2 Bagging和随机森林 158
9.2.1 Bagging并行集成学习 158
9.2.2 随机森林 160
9.3 Boosting集成学习方法 161
9.4 基于AdaBoost的分类 162
9.5 基于XGBoost的分类 164
9.5.1 GBDT 164
9.5.2 XGBoost 166
9.6 应用实例 168
9.6.1 基于AdaBoost算法 168
9.6.2 基于XGBoost算法 172
9.7 习题 175
第10章 K-均值聚类 177
10.1 K-均值聚类算法 177
10.1.1 模型 178
10.1.2 算法 178
10.1.3 算法特性 180
10.2 二分K-均值算法 180
10.2.1 使用后处理来提高聚类性能 180
10.2.2 二分K-均值聚类算法 181
10.3 应用实例 182
10.4 习题 187
第11章 Apriori算法及关联分析 189
11.1 关联分析 190
11.1.1 频繁项集的评估标准 190
11.1.2 关联分析算法过程 191
11.2 Apriori算法基本原理 192
11.3 使用Apriori算法来发现频繁项集 193
11.4 从频繁项集中挖掘关联规则 195
11.5 应用实例 196
11.6 习题 200
第12章 FP-growth算法及频繁项集的挖掘 201
12.1 FP树介绍 202
12.2 构造FP树 203
12.2.1 头指针表的建立 204
12.2.2 FP树的建立 204
12.3 从FP树中挖掘频繁项集 207
12.3.1 抽取条件模式基 208
12.3.2 FP算法归纳 210
12.4 应用实例 211
12.5 习题 215
第13章 PCA及数据降维 216
13.1 降维技术 216
13.2 PCA技术 217
13.2.1 PCA的推导:基于最小投影距离 219
13.2.2 PCA的推导:基于最大投影方差 220
13.2.3 PCA算法流程 221
13.3 应用实例 222
13.4 习题 225
第14章 奇异值分解及应用 226
14.1 奇异值分解的应用 226
14.1.1 隐形语义索引 226
14.1.2 推荐系统 227
14.2 奇异值分解原理 227
14.2.1 特征值与特征向量的回顾 228
14.2.2 奇异值分解的定义 228
14.2.3 紧奇异值分解与截断奇异值分解 230
14.3 应用实例 232
14.3.1 观影数据的生成 232
14.3.2 基于协同过滤的推荐引擎 233
14.3.3 基于物品的相似度和基于用户的相似度 234
14.3.4 示例:电影推荐引擎 234
14.4 习题 237
第15章 综合实例 238
15.1 综合实例一 238
15.2 综合实例二 251
15.3 综合实例三 266
15.4 综合实例四 282
参考文献 288