强化学习实战——从零开始制作AlphaGo围棋（微课视频版）_刘佳_9787302629696

内容简介
编辑推荐
序言
目录

本书通过基础理论和算法实践相结合，循序渐进地介绍了人工智能领域中的常见算法，并以围棋游戏作为媒介，全面、系统地介绍了人工智能算法的实现方法，并通过Keras和PyTorch框架实践人工智能算法中的深度强化学习内容。全书共10章，分别介绍围棋的基础知识、如何制作围棋软件、传统棋类智能算法、神经网络入门知识、如何实现围棋智能体程序、通用化围棋智能体程序、策略梯度算法、基于价值的深度学习网络(DQN)算法、ActorCritic算法、如何实践AlphaGo和AlphaZero等知识，书中的每个知识点都有相应的实现代码和实例。本书主要面向广大从事数据分析、机器学习、数据挖掘或深度学习的专业人员，从事高等教育的专任教师，高等学校的在读学生及相关领域的广大科研人员。

（1）问题驱动，由浅入深。
本书通过分解问题，由浅入深、逐步地对如何实践超越人类大师级水平的计算机棋类智能体的重要概念及原理进行讲解与探究，为读者更好地掌握其背后的计算机强化学习原理提供便利和支持。
（2）突出重点，强化理解。
本书结合作者多年的教学与实践经验，针对应用型本科的教学要求和学生特点，突出重点、深入分析，同时在内容方面全面兼顾知识的系统化要求。
（3）注重理论，联系实际。
本书为重要的知识点均配备了代码讲解，采用Python语言结合Keras和PyTorch工具库通过对围棋智能体的代码实践，加深对机器学习，特别是强化学习的再认识。
（4）风格简洁，使用方便。
本书风格简洁明快，对于非重点的内容不做长篇论述，以便读者在学习过程中明确内容之间的逻辑关系，更好地掌握深度强化学习的内容。

近年来，随着深度强化学习在诸多复杂的博弈对抗、序贯决策等问题中取得巨大突破，人工智能俨然成为当今社会的关注焦点。而棋类游戏在人工智能发展中一直占据着重要地位。2016年，AlphaGo战胜李世石引起了社会各界的广泛关注,大量的报道与文献争相介绍了有关AlphaGo在围棋领域的发展状况，这些都使得人们对其背后的奥秘产生了前所未有的学习热情，也让越来越多的人对人工智能技术抱有新的期望。人工智能被称为第四次科技革命，人工智能技术已成为世界各国角逐的技术高地。未来人工智能产业必将成为经济发展和产业变革的重要驱动力量。

本书主要内容

本书可视为一本以解决实际问题为导向的书籍，非常适合具备一定数学基础和Python基础的读者学习。读者可以在短时间内掌握本书中介绍的所有算法。

全书共分为三大部分，共有10章。

第一部分介绍计算机围棋的基础知识和传统的智能算法，包括第1～3章。第1章围棋：黑白的世界，包括什么是围棋、围棋的规则、围棋的胜负判定方法以及围棋棋手棋力的介绍。第2章实现一个围棋软件，包括本书使用的应用软件版本、围棋软件建模概述、佐布里斯特散列算法、实践围棋智能体、实践围棋棋盘、实践围棋规则判定和实践完整的围棋软件。第3章传统的棋类智能，包括极小化极大算法的原理和应用举例、AlphaBeta剪枝算法的原理和应用举例、棋类局面评估、蒙特卡罗模拟的原理和应用举例、传统监督学习的简要介绍以及对传统方法的讨论。

第二部分介绍基于神经网络的机器学习，包括第4～6章。第4章机器学习入门，包括人工神经网络的基础知识介绍、优化神经网络和对其他人工智能方法的简介。第5章第一个围棋智能体，包括对计算机围棋棋谱的介绍、对HDF5大数据存储文件格式的介绍、围棋智能体的数据模型、如何获取训练样本以及应用示例代码的演示。第6章通用化围棋智能体程序，包括如何搭建自己的围棋对弈网络平台、如何让围棋智能体支持第三方围棋程序的调用，如何让围棋智能体在公开的网络平台上下棋。

第三部分介绍强化学习，包括第7～10章。第7章策略梯度，包括原理、应用举例，并以此为基础实践围棋智能体。第8章深度价值网络，包括传统QLearning、Sarsa及Sarsaλ算法的原理、应用举例，并以此为基础实践围棋智能体。第9章ActorCritic算法，包括算法原理及如何实践围棋智能体。第10章AlphaGo和AlphaZero，包括AlphaGo算法和AlphaZero算法原理，指导实践深度强化学习与蒙特卡罗树搜索相结合的算法。

本书特色

(1) 问题驱动，由浅入深。

本书通过分解问题，由浅入深，逐步地对如何实践超越人类大师级水平的计算机棋类智能体的重要概念及原理进行讲解与探究，为读者更好地掌握其背后的计算机强化学习原理提供便利和支持。

(2) 突出重点，强化理解。

本书结合作者多年的教学与实践经验，针对应用型本科的教学要求和学生特点，突出重点，深入分析，同时在内容方面全面兼顾知识的系统化要求。

(3) 注重理论，联系实际。

本书为重要的知识点均配备了代码讲解，采用Python语言结合Keras和PyTorch工具库，通过对围棋智能体的代码实践，加深读者对机器学习，特别是强化学习的再认识。

(4) 风格简洁，使用方便。

本书风格简洁明快，对于非重点的内容不做长篇论述，以便读者在学习过程中明确内容之间的逻辑关系，更好地掌握深度强化学习的内容。

配套资源

为便于教与学，本书配有微课视频(280分钟)、源代码、软件安装包。

(1) 获取微课视频方式：读者可以先扫描本书封底的文泉云盘防盗码，再扫描书中相应的视频二维码，观看视频。

(2) 获取源代码、软件安装包、彩色图片和全书网址方式：先扫描本书封底的文泉云盘防盗码，再扫描下方二维码，即可获取。

源代码

软件安装包

彩色图片

全书网址

(3) 其他配套资源可以扫描本书封底的书圈二维码，关注后回复本书书号，即可下载。

读者对象

本书主要面向广大从事数据分析、机器学习、数据挖掘或深度学习的专业人员，从事高等教育的专任教师，高等学校的在读学生以及相关领域的广大科研人员。

作者在编写本书过程中，参考了诸多相关资料，在此对相关资料的作者表示衷心的感谢。限于个人水平和时间仓促，书中难免存在疏漏之处，欢迎广大读者批评指正。

作者2023年1月

第一部分计算机围棋的基础知识和传统的智能算法

第1章围棋：黑白的世界

1.1什么是围棋

1.2围棋的规则

1.3胜负的判定

1.4围棋棋手的棋力

1.5计算机眼中的围棋

1.5.1SGF文件

1.5.2GTP

第2章实现一个围棋软件

2.1软件版本

2.2围棋软件的组成

2.3佐布里斯特散列

2.4围棋智能体

2.5围棋的棋盘

2.6引入裁判

2.7让智能体下棋

第3章传统的棋类智能

3.1极小化极大算法

3.2AlphaBeta剪枝算法

3.3棋类局面评估

3.4蒙特卡罗模拟

3.4.1蒙特卡罗算法

3.4.2蒙特卡罗树搜索

3.4.3蒙特卡罗算法改进

3.4.4需要注意的问题

3.5监督学习

3.6传统方法的讨论

第二部分基于神经网络的机器学习

第4章机器学习入门

4.1人工神经网络

4.1.1神经元

4.1.2常见的激活函数

4.1.3多层感知器

4.1.4卷积神经网络

4.1.5反向传播算法

4.1.6小批量训练法

4.1.7残差网络

4.1.8多层感知器的应用示例

4.1.9卷积网络对图片进行多分类的应用示例

4.2优化神经网络

4.2.1训练集、验证集、测试集以及交叉验证

4.2.2欠拟合与过拟合

4.2.3损失函数的正则化

4.2.4精确率和召回率的权衡

4.3其他人工智能方法简介

4.3.1K近邻算法

4.3.2朴素贝叶斯法

4.3.3决策树

4.3.4Boosting算法/Bagging算法

4.3.5支持向量机

4.3.6随机场算法

4.3.7传统智能算法所面临的挑战

第5章第一个围棋智能体

5.1电子围棋棋谱

5.2HDF5文件结构

5.3数据模型

5.4获取训练样本

5.5代码演示

第6章通用化围棋智能体程序

6.1在网络上发布围棋智能体

6.2本地对战

6.2.1计算机的围棋语言

6.2.2围棋的对弈图形界面

6.2.3围棋引擎

6.3让围棋智能体自己去网上下棋

第三部分强化学习

第7章策略梯度

第8章深度价值网络

8.1传统的QLearning算法

8.1.1原始版QLearning

8.1.2原始版QLearning计算时的优化

8.1.3QLearning的变种Sarsa

8.1.4Sarsa的进化Sarsaλ

8.2在神经网络上应用DQN

第9章ActorCritic算法

第10章AlphaGo和AlphaZero

10.1AlphaGo的结构和训练流程

10.2AlphaZero的结构与训练流程

10.3可行的优化

附录AKeras入门

附录BPyTorch入门

附录C反向传播算法

C.1命名约定

C.2正文

C.3进一步讨论

C.4拓展

附录D不同地区的围棋规则

D.1中国规则

D.2日本规则

D.3应氏规则

D.4新西兰规则

D.5美国规则

D.6智运会规则

D.7TrompTaylor规则

你还可能感兴趣

漫画图解人工智能：漫画式AI通识课轻松get人工智能核心问题
自主无人系统及应用中的问题
解构ChatGPT
ChatGPT原理与架构
5G物联网端管云实战

我要评论

您的姓名	验证码：
留言内容