本书从传统的机器学习,如线性回归、逻辑回归、朴素贝叶斯、支持向量机、集成学习,到前沿的深度学习和神经网络,如DNN、CNN、BERT、ResNet等,对人工智能技术进行零基础讲解,内容涵盖数学原理、公式推导、图表展示、企业应用案例。本书面向初中级读者,能帮助读者迅速掌握机器学习技术的相关概念及原理。本书内容结合作者多年的科研工作经验,理论和实践并重,对科研、学习、面试等均有帮助。
2003年~2012年年就读于北京科技大学本科硕士博士,2016年于北京大学博士后流动站出站,研究方向为:机器学习,人工智能,计算机视觉和自然语言属于。工作于腾讯,爱奇艺等顶级互联网公司从事人工智能技术的应用研发工作。曾获得腾讯年度人工智能铜奖,所做项目涉及自然语言处理,推荐系统,领导团队参与多项公司级项目的搭建和优化。工作之余,一直和培训机构进行合作,主讲人工智能课程,致力于人工智能在中国的普及推广和应用。
第1章 数据的量化和特征提取 1
1.1 机器学习概述 1
1.2 特征提取 2
1.3 向量距离计算 6
第2章 线性回归 12
2.1 线性回归的基本概念 13
2.2 损失函数和梯度下降法 14
2.3 训练集和测试集 19
2.4 多项式回归 21
2.5 线性回归的高级技巧 23
2.5.1 特征敏感性研究 23
2.5.2 损失函数的选择 24
第3章 逻辑回归 27
3.1 逻辑回归的基本原理 28
3.2 交叉熵和KL距离 32
3.2.1 KL距离 32
3.2.2 梯度下降法 34
3.2.3 上采样和下采样 36
3.3 线性不可分及其解决方案 38
3.4 L1正则和L2正则 39
3.5 分类模型的评价标准 43
3.6 逻辑回归的特征提升技巧 47
3.6.1 特征归一化 47
3.6.2 特征分段 49
3.7 深入理解损失函数和逻辑函数 51
第4章 因子分解模型 55
4.1 基本原理和特征交叉 55
4.1.1 基本原理 55
4.1.2 特征交叉简化 58
4.1.3 参数学习 59
4.2 因子分解模型和矩阵分解 61
第5章 经典分类模型 63
5.1 支持向量机 63
5.1.1 支持向量机的基本原理 63
5.1.2 支持向量机和逻辑回归的比较 68
5.2 核方法 70
5.2.1 核函数 70
5.2.2 核函数在支持向量机中的应用 72
5.3 朴素贝叶斯 73
5.3.1 朴素贝叶斯原理 73
5.3.2 朴素贝叶斯的参数估计 76
5.4 维数灾难 78
5.5 奥卡姆剃刀定律的应用 82
5.6 经验风险、期望风险和结构风险 83
第6章 无监督学习 85
6.1 K-Means聚类 86
6.1.1 K-Means算法的基本原理 86
6.1.2 改进型K-Means算法 88
6.1.3 K-Means算法和逻辑回归的结合应用 91
6.2 主题模型 92
6.2.1 LDA模型的原理 93
6.2.2 LDA模型的训练 95
第7章 集成学习 100
7.1 决策树 100
7.2 随机森林 105
7.3 GBDT 108
第8章 深度神经网络 113
8.1 BP神经网络的基本原理 113
8.2 多分类与Softmax函数 118
8.3 梯度下降法和链式法则 120
8.4 度量学习 125
第9章 神经网络调优 130
9.1 激活函数选型 131
9.2 权重初始化 135
9.3 改进型梯度下降法 137
9.3.1 随机梯度下降法 138
9.3.2 鞍点问题 141
9.3.3 梯度下降法的优化 142
9.4 过拟合解决方案 145
9.4.1 正则化 145
9.4.2 Dropout 146
9.4.3 提前终止 147
9.4.4 批标准化和层标准化 148
9.4.5 Shortcut 151
9.4.6 标签平滑 151
9.4.7 人工制造数据 152
第10章 自然语言处理 154
10.1 自然语言处理模型 154
10.2 one-hot编码和embedding技术 156
10.3 哈夫曼树和负采样 161
10.3.1 哈夫曼树 161
10.3.2 负采样 163
10.4 Word2vec的应用 165
10.5 fastText模型的原理及应用 166
第11章 卷积神经网络 169
11.1 卷积层和池化层 169
11.2 卷积神经网络在图像处理中的应用 177
11.3 卷积神经网络中的批标准化 179
11.4 TextCNN的原理及应用 180
第12章 深入卷积层 185
12.1 1 × 1卷积 185
12.2 小尺寸卷积 186
12.3 宽度卷积和Inception 187
12.4 Depthwise卷积和Pointwise卷积 189
12.5 特征通道加权卷积 193
第13章 循环神经网络和LSTM模型 196
13.1 循环神经网络模型详解 196
13.1.1 循环神经网络的基本原理 196
13.1.2 循环神经网络存在的一些问题 199
13.2 LSTM模型详解 202
13.3 LSTM模型的改进和应用 206
13.4 CTC算法 208
第14章 Attention模型和Transformer模型 210
14.1 Attention模型详解 210
14.1.1 注意力机制的基本原理 210
14.1.2 Attention模型概述 212
14.1.3 Attention模型的改进形式 214
14.1.4 Self-Attention模型 215
14.1.5 Multi-Head Attention模型 217
14.2 Transformer模型原理 219
14.3 BERT模型及应用 221