强化学习（第2版）_【加】Richard S. Sutton（理查德?桑顿）【美】Andrew G. Barto（安德鲁?巴图）_9787121295164

《强化学习（第2版）》作为强化学习思想的深度解剖之作，被业内公认为是一本强化学习基础理论的经典著作。它从强化学习的基本思想出发，深入浅出又严谨细致地介绍了马尔可夫决策过程、蒙特卡洛方法、时序差分方法、同轨离轨策略等强化学习的基本概念和方法，并以大量的实例帮助读者理解强化学习的问题建模过程以及核心的算法细节。

《强化学习（第2版）》适合所有对强化学习感兴趣的读者阅读、收藏。

本书第1版出版的20年以来，在机器学习(包括强化学习) 前沿技术发展的推动下，人工智能取得了重大进展。这些进展不仅归功于这些年迅猛发展起来的计算机强大的计算能力，也受益于许多理论和算法上的创新。面对这些进展，我们早有对1998年第1版书进行更新再版的打算，但直到2012年才开始真正着手编纂。第2版的目标与第1版一致：为强化学习的核心概念与算法提供清晰简明的解释，以供所有相关学科的读者学习。这一版仍然是一本概要介绍性的读物，仍然关注最核心的在线学习算法，同时增加了一些近年来日趋重要的话题，并拓展了部分内容，给出了更新的理解。强化学习领域可以延伸出很多不同的方向，但我们并不想包罗万象，在此为可能出现的些许遗漏表示歉意。

第2版记号变化

和第1版一样，我们没有以最严谨的形式化的方式来定义强化学习，也没有采用特别抽象的术语表达，但是为了大家能更深入地理解，有些话题仍然需要用数学来解释。无数学需求的读者可以选择跳过灰色框中的数学原理部分。在教学过程中，我们发现一些新的记号可以消除一些共同的疑惑点，因此本书的部分记号和上一版相比略有差异。首先我们对随机变量进行了区分，以大写字母表示变量本身，小写字母表示对应的实例。比如时刻t的状态、动作和收益被表示为St、At和Rt，而它们可能的取值被表示为s、a和r。与之相伴随，我们用小写字母的形式(例如v)来表示价值函数，用大写字母表示其表格型的估计值，比如Qt(s,a)。近似价值函数是具有随机参数的确定性函数，因此用小写字母表示，比如v(s,wt)v(s)。向量用粗体的小写字母表示(包括随机变量)，比如权值向量wt(先前用t表示)、特征向量xt(先前用?t表示)。大写粗体用以表示矩阵。在第1版中我们使用了特殊记号Paass来表示转移概率和期望收益。但这种记号并不能完整地表示出收益的动态性，只表示了期望值，因此只适用于动态规划而不适用于强化学习。另一个缺点是上下标的过度使用。因此，在这一版中我们明确采用p(s,r|s,a)的记号来表示给定当前状态s和动作a后，下一时刻的状态s和收r的联合概率分布。所有的记号变化都收录在稍后的符号列表中。

第2版内容结构

第2版在原先的基础上进行了许多拓展，整体结构也有所变化。第1章是导论性的介绍，其后分为三个部分。第I部分(第28 章)会尽可能多地用表格型的案例讲解强化学习，主要包括针对表格型案例的学习和规划算法，以及它们在n步法和Dyna中的统一表达。这部分介绍的许多算法是第2版的新增内容，包括UCB、期望Sarsa、双重学习、树回溯、Q()、RTDP和MCTS。从介绍表格型案例开始，可以在最简单的情况下理解算法的核心思想。本书的第II部分(第913章)致力于将这些思想从表格型的情况扩展到函数逼近，包含人工神经网络、傅立叶变换基础、LSTD、核方法、梯度TD和强调TD方法、平均收益方法、真实的在线TD(λ)和策略梯度方法等新内容。第2版大幅拓展了对离轨策略的介绍，首先是第57章讲解表格型的案例，之后在第11章和第12章讲解函数逼近法。另一个变化是，这一版将n步自举法(在第7章中详细阐述)中的前向视图思想与资格迹(在第12章中单独阐述)中的后向视图思想分开详细讲解。本书的第III部分加入了大量阐述强化学习与心理学(第14章)、神经科学(第15章)联系的新章节，更新了针对多种案例，包括Atari游戏、Watson的投注策略和围棋人工智能AlphaGo、AlphaGo Zero (第16章)的研究章节。尽管如此，本书涵盖的内容仍然只是该领域的一小部分，只反映了我们长期以来对低成本无模型方法的兴趣，这些方法可以很好地适应大规模的应用。最后一章包括了对强化学习未来的社会影响的讨论。无论好坏，第2版的篇幅达到了第1版的两倍。

本书旨在作为一到两学期强化学习课程的初级教材。一个学期的课程可以着重对前10章进行讨论，掌握核心思想，根据需要再将其他章节，或者其他书籍的某些章节，比如Bertsekas和Tsitsiklis(1996)、Wiering和van Otterlo(2012)，以及Szepesvári(2010)或其他文献作为辅助材料。根据学生的背景，在线有监督学习的一些额外材料可能会对学习这门课有所帮助。比如选项的概念和模型(Sutton、Precup和Singh，1999)就是一个很好的补充。两学期的课程可以使用所有章节内容及补充材料。本书还可以作为机器学习、人工智能或神经网络等课程的一部分。这种情况只需要讲述部分内容，我们推荐对第1章进行简要概述，然后学习第2章到2.4节和第3章，随后根据时间和兴趣选择其余章节。第6章的内容对于本书和相关课程来说是最重要的。关于机器学习或神经网络的课程应该使用第9章和第10章的内容，而关于人工智能或规划算法的课程应该使用第8章的内容。在整本书中，相对比较难且对于其他课程不那么重要的章节和部分已用∗注明。这些部分在第一次阅读时可以跳过，这不会影响后续阅读。练习中一些进阶的、对理解基础概念不那么重要的问题也已经用∗标识。

大多数章节最后会出现题为参考文献和历史备注的部分，在这部分中，我们针对本章中一些值得深入探究的概念和观点提供了进一步阅读和研究的材料，并描述了相关的历史背景。尽管我们试图使这些部分内容具有权威性和完整性，但也不免会忽略一些重要的前期工作。为此，我们再次表示歉意，也欢迎读者提出更正和扩展。

本书写作背景

和第1版一样，我们用本书的这一版纪念A.Harry Klopf。是Harry把本书的作者们介绍给彼此，也是他关于大脑和人工智能的想法，使我们踏上对强化学习研究的漫长征程。Harry是俄亥俄州赖特-帕特森空军基地空军科学研究所(AFOSR)航空电子管理局的一位高级研究员，他受过神经生理学的训练，并一直对机器智能很感兴趣。在解释自然智能、机器智能基础机理的问题上，他并不满意当时的人们对平衡态搜索(equilibrium-seeking)过程(包括内部稳态自调整过程和基于错误纠正的模式分类方法)的广泛重视。他指出，尝试最大化某种准则(无论该准则是什么)的系统与搜索平衡态的系统在本质上有所不同，而具有最大化准则的系统才是理解自然智能的重要方向，是构建人工智能的关键。Harry从AFOSR申请了项目资助，用于评估这些思想以及相关思想的科学价值。该项目于20世纪70年代末在马萨诸塞州阿默斯特大学(麻省大学阿默斯特分校)进行，最初由Michael Arbib、William Kilmer和Nico Spinelli指导，他们是麻省大学阿默斯特分校计算机与信息科学系的教授，系统神经科学控制论中心的创始成员。这是一支十分有远见的团队，专注于神经科学和人工智能交叉方向。

Barto，一位来自密歇根大学的博士，担任该项目的博士后研究员。与此同时，在斯坦福大学攻读计算机科学和心理学的本科生Sutton，就经典条件反射中的刺激时机的作用这一话题和Harry产生了共同兴趣。Harry向麻省大学提出建议，认为Sutton可以成为该项目的一名重要补充人员。因此，Sutton成为了麻省大学的研究生，在成为副教授的Barto的指导下攻读博士学位。

本书中对强化学习的研究都出自Harry推动的这一项目，且受其想法启发而来。此外，也是通过Harry，作者们才得以聚到一起进行长期愉快的合作。因此，我们将本书献给Harry，以纪念他对于强化学习领域和我们合作的重要贡献。我们也感谢Arbib、Kilmer和Spinelli教授为我们提供探索这些想法的机会。最后，感谢AFOSR在研究早期给予我们的慷慨支持，并感谢NSF(美国国家科学基金会)在接下来的几年中给予的慷慨支持。

致谢

我们还要感谢在第2版中为我们提供灵感和帮助的许多人，同样我们也要对第1版中致谢过的所有人再次表示深深的感谢，如果不是他们对第1版的贡献，这一版也不会面世。在这个长长的致谢列表中，我们增加了许多特别为第2版作出贡献的人。多年来在使用该教材的教授的课堂上，我们的学生以各种各样的方式作出贡献：指正错误，提供修改方案，也包括对我们没解释清楚的地方表达困惑。我们还要特别感谢Martha Steenstrup阅读并提供详细的意见。如果没有这些心理学和神经科学领域专家的帮助，相关章节将无法完成。感谢John Moore多年来在动物学习实验、理论和神经科学方面的耐心指导，John仔细审阅了第14章和第15章的多版草稿。感谢Matt Botvinick、Nathaniel Daw、Peter Dayan和Yael Niv对这些章节的建议，对我们阅读大量文献给予的重要指导，以及对早期草稿中错误的斧正。当然，这些章节一定还存在某些纰漏。我们感谢Phil Thomas帮助我们寻找非心理学、非神经科学研究的人士来阅读这些章节，感谢Peter Sterling帮助我们改进注释部分。感谢Jim Houk为我们介绍基底核神经中枢进行信息处理的过程，并提醒我们注意其他一些相关的神经科学的内容。在案例学习的章节，José Martínez、Terry Sejnowski、David Silver、Gerry Tesauro、Georgios Theocharous和Phil Thomas帮助我们了解他们的强化学习应用程序的细节，并对这些章节的草稿提出了十分有用的意见。特别感谢David Silver帮助我们更好地理解蒙特卡洛树搜索和DeepMind的围棋程序(Go-playing program)。感谢George Konidaris在傅立叶基的相关章节提供的帮助，感谢Emilio Cartoni、Thomas Cederborg、Stefan Dernbach、Clemens Rosenbaum、Patrick Taylor、Thomas Colin和Pierre-Luc Bacon在多方面对我们提供的帮助。

Sutton还要感谢阿尔伯塔大学强化学习和人工智能实验室的成员对第2版的贡献，特别是Rupam Mahmood对于第5章中关于离轨策略蒙特卡洛方法的重要贡献，Hamid Maei在第11章中提出的关于离轨策略学习的观点，Eric Graves在第13章中进行的实验，Shangtong Zhang复现并验证了几乎所有的实验结果，Kris De Asis在第7章和第12章中提供的新技术内容，以及Harm van Seijen提出的n步方法与资格迹分离的观点，(和Hado van Hasselt一起)和第12章中涉及的资格迹前向、后向等价性的观点。Sutton 也非常感谢阿尔伯塔省政府和加拿大国家科学与工程研究委员会在整个第2版的构思和编写期间给予的支持和自由。特别感谢Randy Goebel在阿尔伯塔省创建的包容支持、具有远见的基础研究环境。同时，也还要感谢在撰写本书的最后6个月中DeepMind给予的支持。

最后，我们要感谢许多阅读网络发布的第2版的细心读者们，他们发现了许多我们忽视的错误，提醒我们注意可能出现的混淆点。

Richard Sutton（理查德萨顿）

埃德蒙顿 DeepMind 公司的杰出科学家，阿尔伯塔大学计算科学系教授。他于2003年加入阿尔伯塔大学，2017年加入DeepMind。之前，曾在美国电话电报公司（AT＆T）和通用电话电子公司（GTE）实验室工作，在马萨诸塞大学做学术研究。

1978年获得斯坦福大学心理学学士学位，1984年获得马萨诸塞大学计算机科学博士学位，加拿大皇家学会院士和人工智能促进会的会士。

主要研究兴趣是在决策者与环境相互作用时所面临的学习问题，他认为这是智能的核心问题。其他研究兴趣有：动物学习心理学、联结主义网络，以及能够不断学习和改进环境表征和环境模型的系统。

他的科学出版物被引用超过7万次。

他也是一名自由主义者，国际象棋选手和癌症幸存者。

Andrew Barto （安德鲁巴图）

马萨诸塞大学阿默斯特分校信息与计算机科学学院名誉教授。1970年获得密歇根大学数学专业的杰出学士学位，并于1975年获该校计算机科学专业的博士学位。1977年他加入马萨诸塞州阿默斯特大学计算机科学系。在2012年退休之前，他带领了马萨诸塞大学的自主学习实验室，该实验室培养了许多著名的机器学习研究者。

目前担任Neural Computation （《神经计算》）期刊的副主编，Journal of Machine Learning Research （《机器学习研究》）期刊的顾问委员会成员，以及Adaptive Behavior （《自适应行为》）期刊的编委员会成员。

他是美国科学促进会的会员，IEEE（国际电子电气工程师协会）的终身会士（Life Fellow），也是神经科学学会的成员。

2004年，因强化学习领域的贡献荣获IEEE神经网络学会先锋奖，并因在强化学习理论和应用方面的开创、富有影响力的研究获得 IJCAI-17卓越研究奖；2019年获得马萨诸塞大学神经科学终身成就奖。

他在各类期刊、会议和研讨会上发表了100多篇论文，参与撰写多部图书的相关章节。

译者简介

俞凯

上海交通大学计算科学与工程系教授，思必驰公司创始人、首席科学家。清华大学自动化系本科、硕士，剑桥大学工程系博士。青年千人，国家自然科学基金委优青，上海市东方学者特聘教授。IEEE 高级会员，现任 IEEE Speech and Language Processing Technical Committee 委员，中国人工智能产业发展联盟学术和知识产权组组长，中国计算机学会语音对话及听觉专业组副主任。

长期从事交互式人工智能，尤其是智能语音及自然语言处理的研究和产业化工作。发表国际期刊和会议论文 150 余篇，获得Computer Speech and Language, Speech Communication 等多个国际期刊及InterSpeech等国际会议的最优论文奖，所搭建的工程系统曾获美国国家标准局语音识别评测冠军，对话系统国际研究挑战赛冠军等。

获评2014吴文俊人工智能科学技术奖进步奖，2016科学中国人年度人物，2018中国计算机学会青竹奖。

你还可能感兴趣

我要评论