在人工智能技术的大力驱动下,智能控制与强化学习发展迅猛,先进自动化设计与控制日新月异。本书针对复杂离散时间系统的优化调节、最优跟踪、零和博弈等问题,以实现稳定学习、演化学习和快速学习为目标,建立一套先进的值迭代评判学习控制理论与设计方法。首先,对先进值迭代框架下迭代策略的稳定性进行全面深入的分析,建立一系列适用于不同场景的稳定性判据,从理论层面揭示值迭代算法能够实现离线最优控制和在线演化控制。其次,基于迭代历史信息,提出一种新颖的收敛速度可调节的值迭代算法,有助于加快学习速度、减少计算代价,更高效地获得非线性系统的最优控制律。结合人工智能技术,对无模型值迭代评判学习控制的发展前景也进行了讨论。 本书内容丰富、结构清晰、由浅入深、分析透彻,既可作为智能控制、强化学习、优化控制、计算智能、自适应与学习系统等领域研究人员和学生的参考书,又可供相关领域的技术人员使用。
·新一代人工智能技术基础理论著作
·人工智能、智能控制热点研究著作
本书的出版将为相关领域工作人员有效地把握先进值迭代的研究动态与最新发展现状提供有益参考。
本书内容丰富、结构清晰、由浅入深、分析透彻,既可作为智能控制、强化学习、优化控制、计算智能、自适应与学习系统等领域研究人员和学生的参考书,又可供相关领域的技术人员使用。
王鼎,男,北京工业大学教授、博士生导师,现任计算智能与智能系统北京市重点实验室副主任。北京市自然科学基金杰出青年项目获得者、科睿唯安(Clarivate)全球高被引科学家、中国科协青年人才托举工程入选者,主要研究方向为智能控制与智能优化、神经网络与强化学习,涉及复杂智能控制优化、人工智能理论基础。针对不确定系统优化控制中的共性难题进行了长期研究攻关,建立并逐步完善智能评判控制框架,并为工业复杂系统的智能优化控制提供了理论支撑。目前已在人工智能及相关领域的国际期刊和会议上发表学术论文120余篇,其中82篇被SCI检索(以第一作者发表在IEEE Transactions系列期刊和Automatica领域顶刊的论文共25篇),已出版专著4本,申请和已授权发明专利9项。先后荣获吴文俊人工智能优秀青年奖、中国自动化学会自然科学奖一等奖、广东省自然科学奖一等奖等。先后担任人工智能及相关领域多个著名期刊的编委,包括:IEEE Transactions on Systems, Man, and Cybernetics: Systems、IEEE Transactions on Neural Networks and Learning Systems、Neural Networks、International Journal of Robust and Nonlinear Control、International Journal of Adaptive Control and Signal Processing、Neurocomputing、自动化学报。
第 一章 智能评判控制的先进值迭代方法概述
1.1 强化学习背景
1.2 自适应评判介绍
1.3 传统值迭代
1.4 广义值迭代
1.5 演化值迭代
1.6 加速值迭代
1.7 小结
第二章 基于广义值迭代的线性最优调节与稳定性分析
2.1 引言
2.2 问题描述
2.3 面向线性系统的广义值迭代
2.4 迭代策略稳定性分析
2.5 仿真实验
2.6 小结
第三章 具有稳定保证的非线性系统优化控制设计
3.1 引言
3.2 问题描述
3.3 面向非线性系统的广义值迭代
3.4 迭代策略稳定性和容许性分析
3.5 仿真实验
3.6 小结
第四章 一种基于评判学习的非线性智能最优跟踪
4.1 引言
4.2 问题描述
4.3 面向智能最优跟踪的广义值迭代
4.4 基于神经网络的算法实现
4.5 仿真实验
4.6 小结
第五章 一类非线性系统的事件触发最优跟踪控制
5.1 引言
5.2 问题描述
5.3 基于事件触发的近似最优跟踪
5.4 基于神经网络的跟踪控制器设计
5.5 仿真实验
5.6 小结
第六章 基于演化值迭代的非线性最优轨迹跟踪
6.1 引言
6.2 问题描述
6.3 基于新型效用函数的广义值迭代
6.4 演化控制与稳定性分析
6.5 仿真实验
6.6 小结
第七章 融合值迭代学习的非线性零和博弈性能分析
7.1 引言
7.2 零和博弈问题描述
7.3 面向零和博弈的广义值迭代
7.4 零和博弈的演化控制设计
7.5 仿真实验
7.6 小结
第八章 具有可调节收敛速度的新型值迭代机制
8.1 引言
8.2 问题描述
8.3 加速值迭代算法性能分析
8.4 加速值迭代应用设计
8.5 仿真实验
8.6 小结
第九章 基于加速值迭代的非线性系统轨迹跟踪
9.1 引言
9.2 问题描述
9.3 面向跟踪控制的加速值迭代
9.4 基于加速值迭代的演化控制
9.5 仿真实验
9.6 小结
第十章 面向非线性零和博弈的快速值迭代学习
10.1 引言
10.2 问题描述
10.3 面向零和博弈的增量迭代机制
10.4 面向零和博弈的自励迭代机制
10.5 仿真实验
10.6 小结与展望