本书围绕scikit-learn库,详细介绍机器学习模型、算法、应用场景及其案例实现方法,通过对相关算法循序渐进的讲解,带你轻松踏上机器学习之旅。本书采用理论与实践相结合的方式,结合Python3语言的强大功能,以小的编程代价来实现机器学习算法。本书配套PPT课件、案例源码、数据集、开发环境与答疑服务。 本书共分13章,内容包括机器学习的基础理论、模型范式、策略、算法以及机器学习的应用开发,涵盖特征提取、简单线性回归、k近邻算法、多元线性回归、逻辑回归、朴素贝叶斯、非线性分类、决策树回归、随机森林、感知机、支持向量机、人工神经网络、K均值算法、主成分分析等热点研究领域。 本书可以作为机器学习初学者、研究人员或从业人员的参考书,也可以作为计算机科学、大数据、人工智能、统计学和社会科学等专业的大学生或研究生的教材。
涵盖机器学习模型和scikit-learn使用技巧、基本工具和实现方法,循序渐进地讲解相关机器学习算法,带你轻松踏上机器学习之旅。
采用理论与实践相结合的方式,结合Python 3的强大功能,以最小的编程代价实现机器学习算法。
全程以真实案例驱动,详解机器学习的基本概念、算法流程、模型构建、数据训练、模型评估与调优、必备工具和实现方法。
机器学习实际上已经存在了几十年,或者也可以认为存在了几个世纪。追溯到17世纪,贝叶斯、拉普拉斯关于最小二乘法的推导和马尔可夫链,这些构成了机器学习广泛使用的工具和基础。从1950年艾伦·图灵提议搭建一个学习机器开始,到2000年年初深度学习的实际应用以及最近的进展,比如2012年的AlexNet,机器学习有了很大的发展。
scikit-learn项目最早由数据科学家 David Cournapeau在2007年发起,需要NumPy和SciPy等其他包的支持,它是Python语言中专门针对机器学习应用而发展起来的一款开源框架。
机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。它专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构并使之不断改善自身的性能。它是人工智能的核心,即使计算机具有智能的根本途径。
本书针对机器学习这个领域,描述了多种学习模型、策略、算法、理论以及应用,基于Python3使用scikit-learn工具包演示算法解决实际问题的过程。对机器学习感兴趣的读者可通过本书快速入门,快速胜任机器学习岗位,成为人工智能时代的人才。
读者需要了解的重要信息
本书作为机器学习专业图书,介绍机器学习的基本概念、算法流程、模型构建、数据训练、模型评估与调优、必备工具和实现方法,全程以真实案例驱动,案例采用Python3实现。本书涵盖数据获得、算法模型、案例代码实现和结果展示的全过程,以机器学习的经典算法为轴线:算法分析数据获取模型构建推断算法评估。本书案例具有代表性,结合了理论与实践,并能明确机器学习的目标及完成效果。
本书内容
本书共分13章,系统讲解机器学习的典型算法,内容包括机器学习概述、数据特征提取、scikit-learn估计器分类、朴素贝叶斯分类、线性回归、k近邻算法分类和回归、从简单线性回归到多元线性回归、从线性回归到逻辑回归、非线性分类和决策树回归、从决策树到随机森林、从感知机到支持向量机、从感知机到人工神经网络、主成分分析降维。
本书的例子都是在Python3集成开发环境Anaconda3中经过实际调试通过的典型案例,同时本书配备了案例的源码和数据集供读者参考。
配套资源下载
本书配套的案例源码、PPT课件、数据集、开发环境和答疑服务,需要使用微信扫描下边的二维码下载,可按扫描后的页面提示,把链接转发到自己的邮箱中下载。如果有疑问,请联系booksaga@163.com,邮件主题写scikit-learn机器学习实战。
本书读者
本书适合大数据分析与挖掘、机器学习与人工智能技术的初学者、研究人员及从业人员,也适合作为高等院校和培训机构大数据、机器学习与人工智能相关专业的师生教学参考。
致 谢
本书完成之际,感谢合作者与清华大学出版社各位老师的支持。作者夜以继日用了近一年的时间写作,并不断修正错误和完善知识结构。由于作者水平有限,书中有纰漏之处还请读者不吝赐教。本书写作过程中参考的图书与网络资源都在参考文献中给出了出处。
邓立国
2022年1月
邓立国,东北大学计算机应用博士毕业。广东工业大学任教,主要研究方向:数据挖掘、知识工程、大数据处理、云计算、分布式计算等。著有图书《scikit-learn机器学习实战》《Python数据分析与挖掘实战》《Python大数据分析算法与实例》《Python机器学习算法与应用》《数据库原理与应用(SQL Server 2016版本)》等图书。
第1章 机器学习概述 1
1.1 什么是机器学习 1
1.2 机器学习的作用领域 3
1.3 机器学习的分类 4
1.4 机器学习理论基础 6
1.5 机器学习应用开发的典型步骤 7
1.6 本章小结 8
1.7 复习题 8
第2章 机器学习之数据特征 9
2.1 数据的分布特征 9
2.1.1 数据分布集中趋势的测度 9
2.1.2 数据分布离散程度的测定 14
2.1.3 数据分布偏态与峰度的测定 17
2.2 数据的相关性 19
2.2.1 相关关系 19
2.2.2 相关分析 22
2.3 数据的聚类性 24
2.4 数据主成分分析 27
2.4.1 主成分分析的原理及模型 27
2.4.2 主成分分析的几何解释 29
2.4.3 主成分的导出 30
2.4.4 证明主成分的方差是依次递减的 31
2.4.5 主成分分析的计算 32
2.5 数据动态性及其分析模型 34
2.5.1 动态数据及其特点 34
2.5.2 动态数据分析模型分类 35
2.5.3 平稳时间序列建模 35
2.6 数据可视化 37
2.7 本章小结 39
2.8 复习题 39
第3章 用scikit-learn估计器分类 40
3.1 scikit-learn基础 40
3.1.1 sklearn包含的机器学习方式 40
3.1.2 sklearn的强大数据库 41
3.1.3 sklearn datasets构造数据 42
3.2 scikit-learn估计器 43
3.2.1 sklearn估计器的类别 43
3.2.2 sklearn分类器的比较 43
3.3 本章小结 47
3.4 复习题 48
第4章 朴素贝叶斯分类 49
4.1 算法原理 49
4.1.1 朴素贝叶斯算法原理 49
4.1.2 朴素贝叶斯分类法 50
4.1.3 拉普拉斯校准 52
4.2 朴素贝叶斯分类 52
4.2.1 高斯朴素贝叶斯 53
4.2.2 伯努利朴素贝叶斯 54
4.2.3 多项式朴素贝叶斯 55
4.3 朴素贝叶斯分类实例 57
4.4 朴素贝叶斯连续值的处理 60
4.5 本章小结 62
4.6 复习题 63
第5章 线性回归 64
5.1 简单线性回归模型 64
5.1.1 一元线性回归模型 64
5.1.2 损失函数 65
5.1.3 梯度下降算法 65
5.1.4 二元线性回归模型 67
5.1.5 多元线性回归模型 68
5.2 分割数据集 68
5.2.1 训练集和测试集 69
5.2.2 验证集 72
5.3 用简单线性回归模型预测考试成绩 73
5.3.1 创建数据集并提取特征和标签 73
5.3.2 模型训练 75
5.4 本章小结 78
5.5 复习题 78
第6章 用k近邻算法分类和回归 79
6.1 k近邻算法模型 79
6.1.1 k近邻算法的原理 79
6.1.2 距离的度量 81
6.1.3 算法的优缺点及算法的变种 81
6.2 用k近邻算法处理分类问题 82
6.3 用k近邻算法对鸢尾花进行分类 85
6.3.1 导入数据集 85
6.3.2 模型训练 86
6.4 用k近邻算法进行回归拟合 88
6.5 本章小结 90
6.6 复习题 91
第7章 从简单线性回归到多元线性回归 92
7.1 多变量的线性模型 92
7.1.1 简单线性回归模型 92
7.1.2 多元线性回归模型的预测函数 93
7.1.3 向量形式的预测函数 93
7.1.4 向量形式的损失函数 94
7.1.5 梯度下降算法 94
7.2 模型的优化 94
7.2.1 数据归一化 94
7.2.2 欠拟合和过拟合 96
7.2.3 正则化 99
7.2.4 线性回归与多项式 101
7.2.5 查准率和召回率 102
7.3 用多元线性回归模型预测波士顿房价 103
7.3.1 导入波士顿房价数据 104
7.3.2 模型训练 105
7.3.3 模型优化 106
7.3.4 学习曲线 108
7.4 本章小结 110
7.5 复习题 110
第8章 从线性回归到逻辑回归 111
8.1 逻辑回归模型 111
8.1.1 基本公式 112
8.1.2 逻辑回归算法的代价函数 113
8.1.3 逻辑回归算法的损失函数 114
8.1.4 梯度下降算法 114
8.2 多元分类问题 115
8.2.1 OVR 115
8.2.2 softmax函数 116
8.3 正则化项 118
8.3.1 线性回归的正则化 118
8.3.2 逻辑回归的正则化 119
8.4 模型优化 119
8.4.1 判定边界 119
8.4.2 L1和L2的区别 120
8.5 用逻辑回归算法处理二分类问题 121
8.5.1 导入数据集 122
8.5.2 模型训练 123
8.5.3 学习曲线 125
8.6 识别手写数字的多元分类问题 128
8.6.1 导入数据集 128
8.6.2 模型训练 129
8.6.3 模型优化 131
8.7 本章小结 132
8.8 复习题 132
第9章 非线性分类和决策树回归 133
9.1 决策树的特点 133
9.2 决策树分类 135
9.3 决策树回归 137
9.4 决策树的复杂度及使用技巧 139
9.5 决策树算法:ID3、C4.5和CART 140
9.5.1 ID3算法 140
9.5.2 C4.5算法 141
9.5.3 CART算法 142
9.6 本章小结 143
9.7 复习题 143
第10章 集成方法:从决策树到随机森林 144
10.1 Bagging元估计器 144
10.2 由随机树组成的森林 145
10.2.1 随机森林 145
10.2.2 极限随机树 146
10.2.3 参数 146
10.2.4 并行化 147
10.2.5 特征重要性评估 147
10.3 AdaBoost 149
10.3.1 AdaBoost算法 149
10.3.2 AdaBoost使用方法 150
10.4 梯度提升回归树 150
10.4.1 分类 151
10.4.2 回归 151
10.4.3 训练额外的弱学习器 153
10.4.4 控制树的大小 154
10.4.5 数学公式 154
10.4.6 正则化 155
10.4.7 投票分类器 157
10.4.8 投票回归器 159
10.5 本章小结 161
10.6 复习题 161
第11章 从感知机到支持向量机 162
11.1 线性支持向量机分类 162
11.1.1 线性支持向量机分类示例 163
11.1.2 软间隔分类 165
11.2 非线性支持向量机分类 168
11.2.1 多项式内核 169
11.2.2 相似特征 171
11.2.3 高斯RBF内核 173
11.2.4 计算复杂度 175
11.3 支持向量机回归 175
11.4 本章小结 178
11.5 复习题 178
第12章 从感知机到人工神经网络 179
12.1 从神经元到人工神经元 179
12.1.1 生物神经元 180
12.1.2 神经元的逻辑计算 181
12.2 感知机 182
12.3 多层感知机 186
12.3.1 反向传播算法 187
12.3.2 激活函数 188
12.3.3 分类MLP 189
12.3.4 回归MLP 190
12.3.5 实用技巧 191
12.4 本章小结 192
12.5 复习题 192
第13章 主成分分析降维 193
13.1 数据的向量表示及降维问题 193
13.2 向量的表示及基变换 194
13.2.1 内积与投影 194
13.2.2 基 195
13.2.3 基变换的矩阵表示 196
13.3 协方差矩阵及优化目标 197
13.3.1 方差 198
13.3.2 协方差 199
13.3.3 协方差矩阵 199
13.3.4 协方差矩阵对角化 200
13.4 PCA算法流程 201
13.5 PCA实例 202
13.6 scikit-learn PCA降维实例 203
13.7 核主成分分析KPCA简介 208
13.8 本章小结 209
13.9 复习题 209
参考文献 210