深度学习 人工智能算法,机器学习奠基之作,AI圣经
定 价:168 元
- 作者:[美]Ian Goodfellow(伊恩·古德费洛)、[加]Yoshua Bengio(约书亚·本吉奥)、[加]Aaron Courville(亚伦·库维尔)
- 出版时间:2017/8/1
- ISBN:9787115461476
- 出 版 社:人民邮电出版社
- 中图法分类:TP181
- 页码:
- 纸张:胶版纸
- 版次:1
- 开本:16开
《深度学习》由全球知名的三位专家Ian Goodfellow、Yoshua Bengio 和Aaron Courville撰写,是深度学习领域奠基性的经典教材。全书的内容包括3个部分:第1部分介绍基本的数学工具和机器学习的概念,它们是深度学习的预备知识;第2部分系统深入地讲解现今已成熟的深度学习方法和技术;第3部分讨论某些具有前瞻性的方向和想法,它们被公认为是深度学习未来的研究重点。
《深度学习》适合各类读者阅读,包括相关专业的大学生或研究生,以及不具有机器学习或统计背景、但是想要快速补充深度学习知识,以便在实际产品或平台中应用的软件工程师。
AI圣经!深度学习领域奠基性的经典畅销书!长期位居美国亚马逊AI和机器学习类图书榜首!所有数据科学家和机器学习从业者的必读图书!特斯拉CEO埃隆·马斯克等国内外众多专家推荐!
深度学习是机器学习的一个分支,它能够使计算机通过层次概念来学习经验和理解世界。因为计算机能够从经验中获取知识,所以不需要人类来形式化地定义计算机需要的所有知识。层次概念允许计算机通过构造简单的概念来学习复杂的概念,而这些分层的图结构将具有很深的层次。本书会介绍深度学习领域的许多主题。
本书囊括了数学及相关概念的背景知识,包括线性代数、概率论、信息论、数值优化以及机器学习中的相关内容。同时,它还介绍了工业界中实践者用到的深度学习技术,包括深度前馈网络、正则化、优化算法、卷积网络、序列建模和实践方法等,并且调研了诸如自然语言处理、语音识别、计算机视觉、在线推荐系统、生物信息学以及视频游戏方面的应用。*后,本书还提供了一些研究方向,涵盖的理论主题包括线性因子模型、自编码器、表示学习、结构化概率模型、蒙特卡罗方法、配分函数、近似推断以及深度生成模型。
《深度学习》这本书既可以被本科生或研究生用于规划其学术界或工业界生涯,也适用于希望在各种产品或平台上开始使用深度学习技术的软件工程师。作者在本书的配套网站上为读者和教师提供了补充资料。中文版读者可以访问人民邮电出版社异步社区www.epubit.com.cn获取相关信息。
封面特色:
由艺术家Daniel Ambrosi提供的中央公园杜鹃花步道梦幻景观。在Ambrosi的亿级像素全景图上,应用Joseph Smarr(Google)和Chirs Lamb(NVIDIA)修改后的Google DeepDream开源程序,创造了Daniel Ambrosi的幻景。
作者简介
Ian Goodfellow,谷歌公司(Google) 的研究科学家,2014 年蒙特利尔大学机器学习博士。他的研究兴趣涵盖大多数深度学习主题,特别是生成模型以及机器学习的安全和隐私。Ian Goodfellow 在研究对抗样本方面是一位有影响力的早期研究者,他发明了生成式对抗网络,在深度学习领域贡献卓越。
Yoshua Bengio,蒙特利尔大学计算机科学与运筹学系(DIRO) 的教授,蒙特利尔学习算法研究所(MILA) 的负责人,CIFAR 项目的共同负责人,加拿大统计学习算法研究主席。Yoshua Bengio 的主要研究目标是了解产生智力的学习原则。他还教授机器学习研究生课程(IFT6266),并培养了一大批研究生和博士后。
Aaron Courville,蒙特利尔大学计算机科学与运筹学系的助理教授,也是LISA 实验室的成员。目前他的研究兴趣集中在发展深度学习模型和方法,特别是开发概率模型和新颖的推断方法。Aaron Courville 主要专注于计算机视觉应用,在其他领域,如自然语言处理、音频信号处理、语音理解和其他AI 相关任务方面也有所研究。
中文版审校者简介
张志华,北京大学数学科学学院统计学教授,北京大学大数据研究中心和北京大数据研究院数据科学教授,主要从事机器学习和应用统计学的教学与研究工作。
译者简介
赵申剑,上海交通大学计算机系硕士研究生,研究方向为数值优化和自然语言处理。
黎彧君,上海交通大学计算机系博士研究生,研究方向为数值优化和强化学习。
符天凡,上海交通大学计算机系硕士研究生,研究方向为贝叶斯推断。
李凯,上海交通大学计算机系博士研究生,研究方向为博弈论和强化学习。
第1章引言1
1.1本书面向的读者7
1.2深度学习的历史趋势8
1.2.1神经网络的众多名称和命运变迁8
1.2.2与日俱增的数据量12
1.2.3与日俱增的模型规模13
1.2.4与日俱增的精度、复杂度和对现实世界的冲击15
第1部分应用数学与机器学习基础
第2章线性代数19
2.1标量、向量、矩阵和张量19
2.2矩阵和向量相乘21
2.3单位矩阵和逆矩阵22
2.4线性相关和生成子空间23
2.5范数24
2.6特殊类型的矩阵和向量25
2.7特征分解26
2.8奇异值分解28
2.9Moore-Penrose伪逆28
2.10迹运算29
2.11行列式30
2.12实例:主成分分析.30
第3章概率与信息论.34
3.1为什么要使用概率34
3.2随机变量35
3.3概率分布36
3.3.1离散型变量和概率质量函数36
3.3.2连续型变量和概率密度函数36
3.4边缘概率37
3.5条件概率37
3.6条件概率的链式法则38
3.7独立性和条件独立性38
3.8期望、方差和协方差38
3.9常用概率分布39
3.9.1Bernoulli分布40
3.9.2Multinoulli分布40
3.9.3高斯分布40
3.9.4指数分布和Laplace分布41
3.9.5Dirac分布和经验分布42
3.9.6分布的混合42
3.10常用函数的有用性质43
3.11贝叶斯规则45
3.12连续型变量的技术细节45
3.13信息论47
3.14结构化概率模型49
第4章数值计算52
4.1上溢和下溢52
4.2病态条件53
4.3基于梯度的优化方法53
4.3.1梯度之上:Jacobian和Hessian矩阵56
4.4约束优化60
4.5实例:线性最小二乘61
第5章机器学习基础.63
5.1学习算法63
5.1.1任务T63
5.1.2性能度量P66
5.1.3经验E66
5.1.4示例:线性回归68
5.2容量、过拟合和欠拟合70
5.2.1没有免费午餐定理73
5.2.2正则化74
5.3超参数和验证集76
5.3.1交叉验证76
5.4估计、偏差和方差.77
5.4.1点估计77
5.4.2偏差78
5.4.3方差和标准差80
5.4.4权衡偏差和方差以最小化均方误差81
5.4.5一致性82
5.5最大似然估计82
5.5.1条件对数似然和均方误差84
5.5.2最大似然的性质84
5.6贝叶斯统计85
5.6.1最大后验(MAP)估计87
5.7监督学习算法88
5.7.1概率监督学习88
5.7.2支持向量机88
5.7.3其他简单的监督学习算法90
5.8无监督学习算法91
5.8.1主成分分析92
5.8.2k-均值聚类.94
5.9随机梯度下降94
5.10构建机器学习算法96
5.11促使深度学习发展的挑战96
5.11.1维数灾难97
5.11.2局部不变性和平滑正则化97
5.11.3流形学习99
第2部分深度网络:现代实践
第6章深度前馈网络105
6.1实例:学习XOR107
6.2基于梯度的学习110
6.2.1代价函数111
6.2.2输出单元113
6.3隐藏单元119
6.3.1整流线性单元及其扩展120
6.3.2logisticsigmoid与双曲正切函数121
6.3.3其他隐藏单元122
6.4架构设计123
6.4.1万能近似性质和深度.123
6.4.2其他架构上的考虑.126
6.5反向传播和其他的微分算法.126
6.5.1计算图127
6.5.2微积分中的链式法则.128
6.5.3递归地使用链式法则来实现反向传播128
6.5.4全连接MLP中的反向传播计算131
6.5.5符号到符号的导数.131
6.5.6一般化的反向传播.133
6.5.7实例:用于MLP训练的反向传播.135
6.5.8复杂化137
6.5.9深度学习界以外的微分137
6.5.10高阶微分138
6.6历史小记139
第7章深度学习中的正则化141
7.1参数范数惩罚142
7.1.1L2参数正则化142
7.1.2L1正则化144
7.2作为约束的范数惩罚146
7.3正则化和欠约束问题147
7.4数据集增强148
7.5噪声鲁棒性149
7.5.1向输出目标注入噪声.150
7.6半监督学习150
7.7多任务学习150
7.8提前终止151
7.9参数绑定和参数共享156
7.9.1卷积神经网络156
7.10稀疏表示.157
7.11Bagging和其他集成方法.158
7.12Dropout159
7.13对抗训练.165
7.14切面距离、正切传播和流形正切分类器167
第8章深度模型中的优化.169
8.1学习和纯优化有什么不同169
8.1.1经验风险最小化169
8.1.2代理损失函数和提前终止170
8.1.3批量算法和小批量算法170
8.2神经网络优化中的挑战173
8.2.1病态173
8.2.2局部极小值174
8.2.3高原、鞍点和其他平坦区域.175
8.2.4悬崖和梯度爆炸177
8.2.5长期依赖177
8.2.6非精确梯度178
8.2.7局部和全局结构间的弱对应178
8.2.8优化的理论限制179
8.3基本算法180
8.3.1随机梯度下降180
8.3.2动量181
8.3.3Nesterov动量.183
8.4参数初始化策略184
8.5自适应学习率算法187
8.5.1AdaGrad187
8.5.2RMSProp188
8.5.3Adam189
8.5.4选择正确的优化算法.190
8.6二阶近似方法190
8.6.1牛顿法190
8.6.2共轭梯度191
8.6.3BFGS193
8.7优化策略和元算法194
8.7.1批标准化194
8.7.2坐标下降196
8.7.3Polyak平均197
8.7.4监督预训练197
8.7.5设计有助于优化的模型199
8.7.6延拓法和课程学习.199
第9章卷积网络201
9.1卷积运算201
9.2动机203
9.3池化207
9.4卷积与池化作为一种无限强的先验210
9.5基本卷积函数的变体211
9.6结构化输出218
9.7数据类型219
9.8高效的卷积算法220
9.9随机或无监督的特征220
9.10卷积网络的神经科学基础221
9.11卷积网络与深度学习的历史226
第10章序列建模:循环和递归网络227
10.1展开计算图228
10.2循环神经网络230
10.2.1导师驱动过程和输出循环网络232
10.2.2计算循环神经网络的梯度233
10.2.3作为有向图模型的循环网络235
10.2.4基于上下文的RNN序列建模237
10.3双向RNN239
10.4基于编码-解码的序列到序列架构240
10.5深度循环网络242
10.6递归神经网络243
10.7长期依赖的挑战244
10.8回声状态网络245
10.9渗漏单元和其他多时间尺度的策略247
10.9.1时间维度的跳跃连接.247
10.9.2渗漏单元和一系列不同时间尺度247
10.9.3删除连接248
10.10长短期记忆和其他门控RNN248
10.10.1LSTM248
10.10.2其他门控RNN250
10.11优化长期依赖.251
10.11.1截断梯度251
10.11.2引导信息流的正则化252
10.12外显记忆253
第11章实践方法论256
11.1性能度量.256
11.2默认的基准模型258
11.3决定是否收集更多数据259
11.4选择超参数259
11.4.1手动调整超参数259
11.4.2自动超参数优化算法.262
11.4.3网格搜索262
11.4.4随机搜索263
11.4.5基于模型的超参数优化264
11.5调试策略.264
11.6示例:多位数字识别267
第12章应用.269
12.1大规模深度学习269
12.1.1快速的CPU实现269
12.1.2GPU实现269
12.1.3大规模的分布式实现.271
12.1.4模型压缩271
12.1.5动态结构272
12.1.6深度网络的专用硬件实现273
12.2计算机视觉274
12.2.1预处理275
12.2.2数据集增强277
12.3语音识别.278
12.4自然语言处理279
12.4.1n-gram.280
12.4.2神经语言模型281
12.4.3高维输出282
12.4.4结合n-gram和神经语言模型286
12.4.5神经机器翻译287
12.4.6历史展望289
12.5其他应用.290
12.5.1推荐系统290
12.5.2知识表示、推理和回答292
第3部分深度学习研究
第13章线性因子模型297
13.1概率PCA和因子分析297
13.2独立成分分析298
13.3慢特征分析300
13.4稀疏编码.301
13.5PCA的流形解释304
第14章自编码器306
14.1欠完备自编码器306
14.2正则自编码器307
14.2.1稀疏自编码器307
14.2.2去噪自编码器309
14.2.3惩罚导数作为正则.309
14.3表示能力、层的大小和深度310
14.4随机编码器和解码器.310
14.5去噪自编码器详解311
14.5.1得分估计312
14.5.2历史展望314
14.6使用自编码器学习流形314
14.7收缩自编码器317
14.8预测稀疏分解319
14.9自编码器的应用319
第15章表示学习321
15.1贪心逐层无监督预训练322
15.1.1何时以及为何无监督预训练有效有效323
15.2迁移学习和领域自适应326
15.3半监督解释因果关系.329
15.4分布式表示332
15.5得益于深度的指数增益336
15.6提供发现潜在原因的线索337
第16章深度学习中的结构化概率模型339
16.1非结构化建模的挑战.339
16.2使用图描述模型结构.342
16.2.1有向模型342
16.2.2无向模型344
16.2.3配分函数345
16.2.4基于能量的模型346
16.2.5分离和d-分离.347
16.2.6在有向模型和无向模型中转换350
16.2.7因子图352
16.3从图模型中采样353
16.4结构化建模的优势353
16.5学习依赖关系354
16.6推断和近似推断354
16.7结构化概率模型的深度学习方法.355
16.7.1实例:受限玻尔兹曼机356
第17章蒙特卡罗方法359
17.1采样和蒙特卡罗方法.359
17.1.1为什么需要采样359
17.1.2蒙特卡罗采样的基础.359
17.2重要采样.360
17.3马尔可夫链蒙特卡罗方法362
17.4Gibbs采样.365
17.5不同的峰值之间的混合挑战365
17.5.1不同峰值之间通过回火来混合367
17.5.2深度也许会有助于混合368
第18章直面配分函数369
18.1对数似然梯度369
18.2随机最大似然和对比散度370
18.3伪似然375
18.4得分匹配和比率匹配.376
18.5去噪得分匹配378
18.6噪声对比估计378
18.7估计配分函数380
18.7.1退火重要采样382
18.7.2桥式采样384
第19章近似推断385
19.1把推断视作优化问题.385
19.2期望最大化386
19.3最大后验推断和稀疏编码387
19.4变分推断和变分学习.389
19.4.1离散型潜变量390
19.4.2变分法394
19.4.3连续型潜变量396
19.4.4学习和推断之间的相互作用397
19.5学成近似推断397
19.5.1醒眠算法398
19.5.2学成推断的其他形式.398
第20章深度生成模型399
20.1玻尔兹曼机399
20.2受限玻尔兹曼机400
20.2.1条件分布401
20.2.2训练受限玻尔兹曼机.402
20.3深度信念网络402
20.4深度玻尔兹曼机404
20.4.1有趣的性质406
20.4.2DBM均匀场推断406
20.4.3DBM的参数学习408
20.4.4逐层预训练408
20.4.5联合训练深度玻尔兹曼机410
20.5实值数据上的玻尔兹曼机413
20.5.1Gaussian-BernoulliRBM413
20.5.2条件协方差的无向模型414
20.6卷积玻尔兹曼机417
20.7用于结构化或序列输出的玻尔兹曼机418
20.8其他玻尔兹曼机419
20.9通过随机操作的反向传播419
20.9.1通过离散随机操作的反向传播420
20.10有向生成网络.422
20.10.1sigmoid信念网络422
20.10.2可微生成器网络.423
20.10.3变分自编码器.425
20.10.4生成式对抗网络.427
20.10.5生成矩匹配网络.429
20.10.6卷积生成网络.430
20.10.7自回归网络430
20.10.8线性自回归网络.430
20.10.9神经自回归网络.431
20.10.10NADE432
20.11从自编码器采样433
20.11.1与任意去噪自编码器相关的马尔可夫链434
20.11.2夹合与条件采样.434
20.11.3回退训练过程.435
20.12生成随机网络.435
20.12.1判别性GSN436
20.13其他生成方案.436
20.14评估生成模型.437
20.15结论438
参考文献.439
索引486