这是一本基于*的Python和PyTorch版本的深度学习著作,旨在帮助读者低门槛进入深度学习领域,轻松速掌握深度学习的理论知识和实践方法,快速实现从入门到进阶的转变。
本书是多位人工智能技术专家和大数据技术专家多年工作经验的结晶,从工具使用、技术原理、算法设计、案例实现等多个维度对深度学习进行了系统的讲解。内容选择上,广泛涉猎、重点突出、注重实战;内容安排上,实例切入、由浅入深、循序渐进;表达形式上,深度抽象、化繁为简、用图说话。
本书共16章,分为三部分:
一部分(第1~4章) PyTorch基础
首先讲解了机器学习和数据科学中必然会用到的工具Numpy的使用,然后从多个角度讲解了Pytorch的必备基础知识,*后详细讲解了Pytorch的神经网络工具箱和数据处理工具箱。
第二部分(第5~8章) 深度学习基础
这部分从技术原理、算法设计、实践技巧等维度讲解了机器学习和深度学习的经典理理论、算法以及提升深度学习模型性能的多种技巧,涵盖视觉处理、NLP和生成式深度学习等主题。
第三部分(第9~16章) 深度学习实践
这部分从工程实践的角度讲解了深度学习的工程方法和在一些热门领域的实践方案,具体包括人脸识别、图像修复、图像增强、风格迁移、中英文互译、生成式对抗网络、对抗攻击、强化学习、深度强化学习等内容。
(1)核心作者在大数据和人工智能领域有着超过20年的工作经验,实战经验非常丰富,其他几位作者也在大数据和人工智能领域颇有造诣。
(2)作者团队之前还著有《深入理解Spark机器学习》、《Python深度学习:基于TensorFlow》、《自己动手做大数据系统》等畅销书。
(3)本书是《Python深度学习:基于TensorFlow》的姊妹篇。
(4)本书从工具使用、技术原理、算法实现、工程实践等维度全面、系统讲解了深度学习。
(5)本书在内容的选择、安排和表现形式上精心谋划,目的是确保高质量内容的同时,让深度学习的学习门槛大大降低。
为什么写这本书
在人工智能时代,如何尽快掌握人工智能的核心深度学习,是每个欲进入该领域的人都会面临的问题。目前,深度学习框架很多,如TensorFlow、PyTorch、Keras、FastAI、CNTK等,这些框架各有优缺点,应该如何选择?是否有一些标准?我认为,适合自己的就是最好的。
如果你是一位初学者,建议选择PyTorch,有了一定的基础之后,可以学习其他一些架构,如TensorFlow、CNTK等。建议初学者选择PyTorch的主要依据是:
1)PyTorch是动态计算图,其用法更贴近Python,并且,PyTorch与Python共用了许多Numpy的命令,可以降低学习的门槛,比TensorFlow更容易上手。
2)PyTorch需要定义网络层、参数更新等关键步骤,这非常有助于理解深度学习的核心;而Keras虽然也非常简单,且容易上手,但封装粒度很粗,隐藏了很多关键步骤。
3)PyTorch的动态图机制在调试方面非常方便,如果计算图运行出错,马上可以跟踪问题。PyTorch的调试与Python的调试一样,通过断点检查就可以高效解决问题。
4)PyTorch的流行度仅次于TensorFlow。而最近一年,在GitHub关注度和贡献者的增长方面,PyTorch跟TensorFlow基本持平。PyTorch的搜索热度持续上涨,加上FastAI的支持,PyTorch将受到越来越多机器学习从业者的青睐。
深度学习是人工智能的核心,随着大量相关项目的落地,人们对深度学习的兴趣也持续上升。不过掌握深度学习却不是一件轻松的事情,尤其是对机器学习或深度学习的初学者来说,挑战更多。为了广大人工智能初学者或爱好者能在较短时间内掌握深度学习基础及利用PyTorch解决深度学习问题,我们花了近一年时间打磨这本书,在内容选择、安排和组织等方面采用了如下方法。
(1)内容选择:广泛涉猎 精讲 注重实战
深度学习涉及面比较广,且有一定门槛。没有一定广度很难达到一定深度,所以本书内容基本包括了机器学习、深度学习的主要内容。书中各章一般先简单介绍相应的架构或原理,帮助读者理解深度学习的本质。当然,如果只有概念、框架、原理、数学公式的介绍,可能就显得有点抽象或乏味,所以,每章都配有大量实践案例,通过实例有利于加深对原理和公式的理解,同时有利于把相关内容融会贯通。
(2)内容安排:简单实例开始 循序渐进
深度学习是一块难啃的硬骨头,对有一定开发经验和数学基础的从业者是这样,对初学者更是如此。其中卷积神经网络、循环神经网络、对抗式神经网络是深度学习的基石,同时也是深度学习的3大硬骨头。为了让读者更好地理解掌握这些网络,我们采用循序渐进的方式,先从简单特例开始,然后逐步介绍更一般性的内容,最后通过一些PyTorch代码实例实现之,整本书的结构及各章节内容安排都遵循这个原则。此外,一些优化方法也采用这种方法,如对数据集Cifar10分类优化,先用一般卷积神经网络,然后使用集成方法、现代经典网络,最后采用数据增加和迁移方法,使得模型精度不断提升,由最初的68%,上升到74%和90%,最后达到95%左右。
(3)表达形式:让图说话,一张好图胜过千言万语
在机器学习、深度学习中有很多抽象的概念、复杂的算法、深奥的理论等,如Numpy的广播机制、梯度下降对学习率敏感、神经网络中的共享参数、动量优化法、梯度消失或爆炸等,这些内容如果只用文字来描述,可能很难达到使读者茅塞顿开的效果,但如果用一些图形来展现,再加上适当的文字说明,往往能取得非常好的效果,正所谓一张好图胜过千言万语。
除了以上谈到的3个方面,为了帮助大家更好理解、更快掌握机器学习、深度学习这些人工智能的核心内容,本书还包含了其他方法。我们希望通过这些方法方式带给你不一样的理解和体验,使抽象数学不抽象、深度学习不深奥、复杂算法不复杂、难学的深度学习也易学,这也是我们写这本书的主要目的。
至于人工智能(AI)的重要性,我想就不用多说了。如果说2016年前属于摆事实论证的阶段,2017年和2018年是事实胜于雄辩的阶段,那么2019年及以后就进入百舸争流、奋楫者先的阶段。目前各行各业都忙于AI ,大家都希望通过AI来改造传统流程、传统结构、传统业务、传统架构,其效果犹如历史上用电改造原有的各行各业一样。
★吴茂贵
资深大数据和人工智能技术专家,就职于中国外汇交易中心,在BI、数据挖掘与分析、数据仓库、机器学习等领域工作超过20年。在基于Spark、TensorFlow、PyTorch、Keras等的机器学习和深度学习方面有大量的工程实践实践。著有《Python深度学习:基于TensorFlow》《深度实践Spark机器学习》《自己动手做大数据系统》等著作。
★郁明敏
资深商业分析师,从事互联网金融算法研究工作,专注于大数据、机器学习以及数据可视化的相关领域,擅长 Python、Hadoop、Spark 等技术,拥有丰富的实战经验。曾获江苏省TI杯大学生电子竞技大赛二等奖和华为杯全国大学生数学建模大赛二等奖。
★杨本法
高级算法工程师,在流程优化、数据分析、数据挖掘等领域有10余年实战经验,熟悉Hadoop和Spark技术栈。有大量工程实践经验,做过的项目包括:推荐系统、销售预测系统、舆情监控系统、拣货系统、报表可视化、配送路线优化系统等。
★李涛
资深AI技术工程师,对PyTorch、Caffe、TensorFlow等深度学习框架以及计算机视觉技术有深刻的理解和丰富的实践经验,曾经参与和主导过服务机器人、无人售后店、搜索排序等多个人工智能相关的项目。
★张粤磊
资深大数据技术专家,飞谷云创始人,有10余年一线数据数据挖掘与分析实战经验。先后在咨询、金融、互联网行业担任大数据平台的技术负责人或架构师。
前言
第一部分 PyTorch基础
第1章 Numpy基础2
1.1 生成Numpy数组3
1.1.1 从已有数据中创建数组3
1.1.2 利用random模块生成数组4
1.1.3 创建特定形状的多维数组5
1.1.4 利用arange、linspace函数生成数组6
1.2 获取元素7
1.3 Numpy的算术运算9
1.3.1 对应元素相乘9
1.3.2 点积运算10
1.4 数组变形11
1.4.1 更改数组的形状11
1.4.2 合并数组14
1.5 批量处理16
1.6 通用函数17
1.7 广播机制19
1.8 小结20
第2章 PyTorch基础21
2.1 为何选择PyTorch?21
2.2 安装配置22
2.2.1 安装CPU版PyTorch22
2.2.2 安装GPU版PyTorch24
2.3 Jupyter Notebook环境配置26
2.4 Numpy与Tensor28
2.4.1 Tensor概述28
2.4.2 创建Tensor28
2.4.3 修改Tensor形状30
2.4.4 索引操作31
2.4.5 广播机制32
2.4.6 逐元素操作32
2.4.7 归并操作33
2.4.8 比较操作34
2.4.9 矩阵操作35
2.4.10 PyTorch与Numpy比较35
2.5 Tensor与Autograd36
2.5.1 自动求导要点36
2.5.2 计算图37
2.5.3 标量反向传播38
2.5.4 非标量反向传播39
2.6 使用Numpy实现机器学习41
2.7 使用Tensor及Antograd实现机器学习44
2.8 使用TensorFlow架构46
2.9 小结48
第3章 PyTorch神经网络工具箱49
3.1 神经网络核心组件49
3.2 实现神经网络实例50
3.2.1 背景说明51
3.2.2 准备数据52
3.2.3 可视化源数据53
3.2.4 构建模型53
3.2.5 训练模型54
3.3 如何构建神经网络?56
3.3.1 构建网络层56
3.3.2 前向传播57
3.3.3 反向传播57
3.3.4 训练模型58
3.4 神经网络工具箱nn58
3.4.1 nn.Module58
3.4.2 nn.functional58
3.5 优化器59
3.6 动态修改学习率参数60
3.7 优化器比较60
3.8 小结62
第4章 PyTorch数据处理工具箱63
4.1 数据处理工具箱概述63
4.2 utils.data简介64
4.3 torchvision简介66
4.3.1 transforms67
4.3.2 ImageFolder67
4.4 可视化工具69
4.4.1 tensorboardX简介69
4.4.2 用tensorboardX可视化神经网络71
4.4.3 用tensorboardX可视化损失值72
4.4.4 用tensorboardX可视化特征图73
4.5 本章小结74
第二部分 深度学习基础
第5章 机器学习基础76
5.1 机器学习的基本任务76
5.1.1 监督学习77
5.1.2 无监督学习77
5.1.3 半监督学习78
5.1.4 强化学习78
5.2 机器学习一般流程78
5.2.1 明确目标79
5.2.2 收集数据79
5.2.3 数据探索与预处理79
5.2.4 选择模型及损失函数80
5.2.5 评估及优化模型81
5.3 过拟合与欠拟合81
5.3.1 权重正则化82
5.3.2 Dropout正则化83
5.3.3 批量正则化86
5.3.4 权重初始化88
5.4 选择合适激活函数89
5.5 选择合适的损失函数90
5.6 选择合适优化器92
5.6.1 传统梯度优化的不足93
5.6.2 动量算法94
5.6.3 AdaGrad算法96
5.6.4 RMSProp算法97
5.6.5 Adam算法98
5.7 GPU加速99
5.7.1 单GPU加速100
5.7.2 多GPU加速101
5.7.3 使用GPU注意事项104
5.8 本章小结104
第6章 视觉处理基础105
6.1 卷积神经网络简介105
6.2 卷积层107
6.2.1 卷积核108
6.2.2 步幅109
6.2.3 填充111
6.2.4 多通道上的卷积111
6.2.5 激活函数113
6.2.6 卷积函数113
6.2.7 转置卷积114
6.3 池化层115
6.3.1 局部池化116
6.3.2 全局池化117
6.4 现代经典网络119
6.4.1 LeNet-5模型119
6.4.2 AlexNet模型120
6.4.3 VGG模型121
6.4.4 GoogleNet模型122
6.4.5 ResNet模型123
6.4.6 胶囊网络简介124
6.5 PyTorch实现CIFAR-10多分类125
6.5.1 数据集说明125
6.5.2 加载数据125
6.5.3 构建网络127
6.5.4 训练模型128
6.5.5 测试模型129
6.5.6 采用全局平均池化130
6.5.7 像Keras一样显示各层参数131
6.6 模型集成提升性能133
6.6.1 使用模型134
6.6.2 集成方法134
6.6.3 集成效果135
6.7 使用现代经典模型提升性能136
6.8 本章小结137
第7章 自然语言处理基础138
7.1 循环神经网络基本结构138
7.2 前向传播与随时间反向传播140
7.3 循环神经网络变种143
7.3.1 LSTM144
7.3.2 GRU145
7.3.3 Bi-RNN146
7.4 循环神经网络的PyTorch实现146
7.4.1 RNN实现147
7.4.2 LSTM实现149
7.4.3 GRU实现151
7.5 文本数据处理152
7.6 词嵌入153
7.6.1 Word2Vec原理154
7.6.2 CBOW模型155
7.6.3 Skip-Gram模型155
7.7 PyTorch实现词性判别156
7.7.1 词性判别主要步骤156
7.7.2 数据预处理157
7.7.3 构建网络157
7.7.4 训练网络158
7.7.5 测试模型160
7.8 用LSTM预测股票行情160
7.8.1 导入数据160
7.8.2 数据概览161
7.8.3 预处理数据162
7.8.4 定义模型163
7.8.5 训练模型163
7.8.6 测试模型164
7.9 循环神经网络应用场景165
7.10 小结166
第8章 生成式深度学习167
8.1 用变分自编码器生成图像167
8.1.1 自编码器168
8.1.2 变分自编码器168
8.1.3 用变分自编码器生成图像169
8.2 GAN简介173
8.2.1 GAN架构173
8.2.2 GAN的损失函数174
8.3 用GAN生成图像175
8.3.1 判别器175
8.3.2 生成器175
8.3.3 训练模型175
8.3.4 可视化结果177
8.4 VAE与GAN的优缺点178
8.5 ConditionGAN179
8.5.1 CGAN的架构179
8.5.2 CGAN生成器180
8.5.3 CGAN判别器180
8.5.4 CGAN损失函数181
8.5.5 CGAN可视化181
8.5.6 查看指定标签的数据182
8.5.7 可视化损失值182
8.6 DCGAN183
8.7 提升GAN训练效果的一些技巧184
8.8 小结185
第三部分 深度学习实践
第9章 人脸检测与识别188
9.1 人脸识别一般流程188
9.2 人脸检测189
9.2.1 目标检测189
9.2.2 人脸定位191
9.2.3 人脸对齐191
9.2.4 MTCNN算法192
9.3 特征提取193
9.4 人脸识别198
9.4.1 人脸识别主要原理198
9.4.2 人脸识别发展198
9.5 PyTorch实现人脸检测与识别199
9.5.1 验证检测代码199
9.5.2 检测图像200
9.5.3 检测后进行预处理200
9.5.4 查看经检测后的图像201
9.5.5 人脸识别202
9.6 小结202
第10章 迁移学习实例203
10.1 迁移学习简介203
10.2 特征提取204
10.2.1 PyTorch提供的预处理模块205
10.2.2 特征提取实例206
10.3 数据增强209
10.3.1 按比例缩放209
10.3.2 裁剪210
10.3.3 翻转210
10.3.4 改变颜色211
10.3.5 组合多种增强方法211
10.4 微调实例212
10.4.1 数据预处理212
10.4.2 加载预训练模型213
10.4.3 修改分类器213
10.4.4 选择损失函数及优化器213
10.4.5 训练及验证模型214
10.5 清除图像中的雾霾214
10.6 小结217
第11章 神经网络机器翻译实例218
11.1 Encoder-Decoder模型原理218
11.2 注意力框架220
11.3 PyTorch实现注意力Decoder224
11.3.1 构建Encoder224
11.3.2 构建简单Decoder225
11.3.3 构建注意力Decoder226
11.4 用注意力机制实现中英文互译227
11.4.1 导入需要的模块228
11.4.2 数据预处理228
11.4.3 构建模型231
11.4.4 训练模型234
11.4.5 随机采样,对模型进行测试235
11.4.6 可视化注意力236
11.5 小结237
第12章 实战生成式模型238
12.1 DeepDream模型238
12.1.1 Deep Dream原理238
12.1.2 DeepDream算法流程239
12.1.3 用PyTorch实现Deep Dream240
12.2 风格迁移243
12.2.1 内容损失244
12.2.2 风格损失245
12.2.3 用PyTorch实现神经网络风格迁移247
12.3 PyTorch实现图像修复252
12.3.1 网络结构252
12.3.2 损失函数252
12.3.3 图像修复实例253
12.4 PyTorch实现DiscoGAN255
12.4.1 DiscoGAN架构256
12.4.2 损失函数258
12.4.3 DiscoGAN实现258
12.4.4 用PyTorch实现从边框生成鞋子260
12.5 小结262
第13章 Caffe2模型迁移实例263
13.1 Caffe2简介263
13.2 Caffe如何升级到Caffe2264
13.3 PyTorch如何迁移到Caffe2265
13.4 小结268
第14章 AI新方向:对抗攻击269
14.1 对抗攻击简介269
14.1.1 白盒攻击与黑盒攻击270
14.1.2 无目标攻击与有目标攻击270
14.2 常见对抗样本生成方式271
14.2.1 快速梯度符号法271
14.2.2 快速梯度算法271
14.3 PyTorch实现对抗攻击272
14.3.1 实现无目标攻击272
14.3.2 实现有目标攻击274
14.4 对抗攻击和防御措施276
14.4.1 对抗攻击276
14.4.2 常见防御方法分类276
14.5 总结277
第15章 强化学习278
15.1 强化学习简介278
15.2 Q-Learning原理281
15.2.1 Q-Learning主要流程281
15.2.2 Q函数282
15.2.3 贪婪策略283
15.3 用PyTorch实现Q-Learning283
15.3.1 定义Q-Learing主函数283
15.3.2 执行Q-Learing284
15.4 SARSA算法285
15.4.1 SARSA算法主要步骤285
15.4.2 用PyTorch实现SARSA算法286
15.5 小结287
第16章 深度强化学习288
16.1 DQN算法原理288
16.1.1 Q-Learning方法的局限性289
16.1.2 用DL处理RL需要解决的问题289
16.1.3 用DQN解决方法289
16.1.4 定义损失函数290
16.1.5 DQN的经验回放机制290
16.1.6 目标网络290
16.1.7 网络模型291
16.1.8 DQN算法291
16.2 用PyTorch实现DQN算法292
16.3 小结295
附录A PyTorch0.4版本变更296
附录B AI在各行业的最新应用301