智能决策是迈向通用人工智能的必经之路。2016年,围棋智能体AlphaGo战胜韩国棋手李世石,智能决策引起人们的广泛关注;2022年底,ChatGPT火爆全球,凸显出大模型的价值。可以预见,神经网络大模型将进一步推动智能决策在自主学习和应用范围上的突破。本书围绕智能决策领域涉及的基本方法与技术展开介绍,主要内容包括:智能决策与智能体的基本概念,智能体所处环境的分类与建模,确定环境下智能体的搜索推理决策方法,不确定环境下决策策略强化学习方法、博弈学习方法,复杂策略的深层神经网络建模与应用,以及网格世界游戏、“雅达利”游戏、围棋对弈、“星际争霸”即时战略对抗游戏、陆战对抗等实例下智能体的决策策略生成技术和部分Python代码实现。
更多科学出版社服务,请扫码获取。
1. 第二届全军"先知.兵圣"人机对抗挑战赛--先知分队级智能体第二名, 2020年(本书依托)。
2. 基于鲁棒水印的数字媒体安全管理系统,军队科技进步奖二等奖,2014年,排名第2。
目录
前言
第1章 智能决策概述 1
1.1 智能决策的内涵 1
1.1.1 基本概念 1
1.1.2 两个关键问题 2
1.1.3 虚拟环境 3
1.2 当前成果与技术流派 6
1.2.1 当前成果 6
1.2.2 三大流派 9
1.3 未来应用与发展方向 10
1.3.1 为复杂体系提供辅助决策 10
1.3.2 为无人系统提升自主能力 12
第2章 基本理论与模型 14
2.1 决策的基本理论 14
2.1.1 人类决策的一般过程 14
2.1.2 决策的认知心理学描述 16
2.2 智能体模型理论 18
2.2.1 智能体的基本概念 18
2.2.2 与一般决策的不同 20
2.3 知识与环境描述 21
2.3.1 知识表示 21
2.3.2 环境描述方法 22
2.3.3 环境与智能体分类 23
第3章 确定环境下的搜索推理决策方法 27
3.1 智能体的描述与分析 27
3.1.1 智能体的决策问题 27
3.1.2 问题的形式化 28
3.1.3 问题蕴含的知识 29
3.2 搜索推理决策方法 31
3.2.1 智能体的决策 31
3.2.2 搜索算法基础 32
3.2.3 无信息搜索策略 36
3.2.4 启发式搜索策略 41
3.3 自动规划与知识描述 42
3.3.1 集合论描述 42
3.3.2 经典规划描述 47
3.3.3 时态规划模型 52
第4章 不确定环境下的决策策略生成方法 54
4.1 不确定环境下的基本决策方法 54
4.1.1 随机不确定环境下的最大期望效用决策 54
4.1.2 博弈不确定环境下的纯策略决策 56
4.1.3 博弈不确定环境下的混合策略决策 64
4.2 决策策略的强化学习算法 68
4.2.1 强化学习的基本概念 68
4.2.2 有模型的强化学习 70
4.2.3 无模型的强化学习 75
第5章 神经网络与决策策略建模 87
5.1 神经网络的基本概念 87
5.1.1 神经网络的定义 87
5.1.2 神经元模型 89
5.2 全连接反向传播与监督学习 91
5.2.1 反向传播算法 91
5.2.2 前馈多层神经网络 96
5.2.3 监督学习下的损失函数 97
5.2.4 参数初始化与参数更新方法 100
5.3 卷积神经网络及其反向传播 106
5.3.1 卷积神经网络结构 106
5.3.2 卷积神经网络中的反向传播 114
5.4 神经网络在决策策略建模中的应用 117
5.4.1 拟合状态价值函数与直接生成动作 117
5.4.2 策略网络的训练 119
5.4.3 Actor-Critic方法 121
第6章 简单游戏中的智能决策技术 124
6.1 OpenAI Gym与虚拟环境 124
6.2 表格Q学习与网格世界游戏决策 125
6.2.1 游戏环境与Q学习实现 125
6.2.2 湖面溜冰游戏决策 128
6.3 DQN与打砖块游戏决策 129
6.3.1 打砖块游戏环境 129
6.3.2 DQN算法过程 130
6.3.3 DQN核心代码 136
6.3.4 打砖块游戏智能体的实现 142
第7章 完全信息下的棋类智能决策技术 149
7.1 AlphaZero算法原理 149
7.1.1 基本思路 149
7.1.2 蒙特卡罗树搜索基础 151
7.1.3 自我博弈与神经网络设计 156
7.2 棋盘游戏环境实现 160
7.2.1 N子棋走子 160
7.2.2 棋盘环境 164
7.3 AlphaZero算法实现 170
7.3.1 自我博弈实现 170
7.3.2 蒙特卡罗树搜索 174
7.3.3 策略价值网络 176
7.3.4 训练与决策 183
第8章 不完全信息下的对抗策略的博弈学习 193
8.1 博弈学习算法 193
8.1.1 博弈学习的基本概念 193
8.1.2 博弈及其策略的形式化描述 194
8.1.3 博弈学习动力学及学习算法 196
8.2 “星际争霸”游戏对抗问题分析 200
8.2.1 “星际争霸”游戏环境 200
8.2.2 决策问题分析 206
8.3 AlphaStar中的决策神经网络和博弈学习技术 207
8.3.1 动作体系与状态观测量 207
8.3.2 神经网络结构概况与监督学习 209
8.3.3 神经网络强化学习的基本方法 212
8.3.4 加权虚拟自我博弈与联盟学习 214
第9章 战术级陆战对抗策略的智能生成 216
9.1 陆战人机对抗环境 216
9.1.1 陆战对抗场景 216
9.1.2 庙算平台的环境接口 218
9.2 智能体的基本框架 219
9.2.1 智能体对棋子的控制 219
9.2.2 高层动作的实施逻辑 222
9.3 基于先验收益的目标点位选择的初始策略 223
9.3.1 目标点位选择问题分析 223
9.3.2 博弈模型构建 224
9.3.3 收益值计算与混合策略求解 225
9.4 目标点位选择策略的博弈学习 232
9.4.1 博弈学习架构设计 232
9.4.2 神经网络结构设计 234
9.4.3 神经网络参数博弈学习 238
参考文献 244
附录A 神经网络的使用 246
A.1 PyTorch框架下神经网络的使用 246
A.2 TensorFlow Keras框架下神经网络的使用 248
附录B 庙算平台接口 251
B.1 态势接口 251
B.2 机动动作接口 256