本书主要内容分为四部分:①人工智能算法基础;②数据基础与表征;③人工智能与药物设计;④程序代码。通过系统介绍人工智能算法,阐述不同算法的原理、应用场景和算法特点,为后续介绍人工智能与药物研发的交叉内容提供基础。全书以药物研发流程为脉络,针对每个人工智能算法融入的关键步骤,首先介绍药物设计基础原理与现存挑战,进而系统性回顾介绍人工智能算法在该研究方向上的进展情况,每部分都穿插介绍已有的交叉应用实例,以利于加深对图书内容的理解与灵活运用。提供原始的代码文件,为读者开展实践应用提供直接资料。
李洪林,华东师范大学紫江学者特聘教授,人工智能新药创智中心主任;华东理工大学药学院兼职教授,上海市新药设计重点实验室主任;临港实验室副主任。入选国家杰出青年科学基金,国家万人计划领军人才等。获教育部自然科学一等奖、中国青年科技奖等多项奖励。享受国务院政府特殊津贴。长期致力于药物科学基础和新药发现,围绕靶标发现和药物设计中的科学问题,发展人工智能与药物设计方法和软件,开展新靶标发现和创新药物发现研究。现已在 PNAS、NAR、JMC等专业期刊上发表论文180余篇,获授权专利50余项;已发展药物设计和靶标预测新方法和软件10余套,建立的方法和平台全球科研用户超过3.5万;发现原创候选药物十余个,已实现科研成果转化6项。
郑明月,中国科学院上海药物研究所研究员,课题组长,博士生导师。入选国家杰出青年科学基金,中科院青年创新促进会会员,腾讯 AI Lab 犀牛鸟专项研究计划。获得中国药学会施维雅青年药物化学奖,上海市人才发展资金,药明康德生命化学研究奖等奖励和荣誉。针对人工智能药物设计开展多学科交叉研究,在数据信息资源的挖掘和可持续利用,人工智能算法和软件开发,及其在药物化学和药理学研究中的概念验证和应用探索方面取得了阶段性的进展。开发的“基于大数据和人工智能的药物设计前沿技术”获得第十五届“药明康德生命化学研究奖”,并入选中国科协发布的首届“科创中国”先导技术榜单。
朱峰,浙江大学长聘正教授,博士生导师。入选国家万人计划领军人才、国家四青人才、科技部创新人才推进计划科技创新领军人才、浙江省杰出青年基金获得者、浙江省千人计划创新长期。爱思唯尔出版社Comput Biol Med杂志主编,美国化学会J Chem Inf Model杂志副主编。运用人工智能、复杂网络分析等生物信息学手段和多组学新技术,分析和发现具有治疗效用药物靶点的成药性和系统生物学特性,发展新颖的用于药靶发现的新型预测方法和面向全球的在线工具,并进一步研究多靶点药物与重要靶点的相互作用机制。
白芳,上海科技大学免疫化学研究所研究员,生命科学与技术学院常任助理教授,兼任信息科学与技术学院特聘教授、博士生导师。曾任美国得克萨斯大学休斯顿健康科学中心助理教授。获中央组织部青年海外高层次人才,上海市青年科技启明星。研究方向以发展药物设计新计算方法为主,并致力于新药设计与药物作用机制等研究应用。在Science、Nature、PNAS、Chem Sci、NAR等期刊上发表论文40余篇,申请专利10余项。
绪论 ——人工智能与药物设计的发展 001
第一部分 人工智能算法基础 009
第1章 机器学习基础 010
1.1 监督学习 010
1.1.1 概念 010
1.1.2 分类 011
1.1.3 回归 013
1.1.4 小结 015
1.2 无监督学习 015
1.2.1 无监督学习的基本概念 015
1.2.2 无监督学习的基本算法 016
1.2.3 小结 028
1.3 强化学习 029
1.3.1 强化学习的概念 029
1.3.2 有模型学习和免模型学习 030
1.3.3 求解方法 031
1.3.4 强化学习算法 033
1.3.5 小结 036
1.4 模型评估与验证 037
1.4.1 模型评估指标介绍 037
1.4.2 模型验证方法介绍 041
1.4.3 小结 044
1.5 应用实例与代码 044
1.5.1 监督学习应用 044
1.5.2 无监督学习应用 045
参考文献 046
拓展阅读 047
第2章 深度网络结构设计基础 050
2.1 卷积神经网络 050
2.1.1 卷积神经网络的组件 050
2.1.2 神经网络的训练 053
2.1.3 基于卷积神经网络的图像分类 054
2.1.4 基于卷积神经网络的图像分割 057
2.2 循环神经网络 063
2.2.1 循环神经网络结构 063
2.2.2 双向循环神经网络 064
2.2.3 深度循环神经网络 065
2.2.4 长短期记忆网络 065
2.2.5 双向长短期记忆网络 066
2.2.6 门控循环单元 067
2.2.7 基于长短期记忆网络的视频分类 067
2.3 Transformer 068
2.3.1 自然语言处理中的Transformer 068
2.3.2 视觉任务中的Transformer 070
2.4 图神经网络 071
2.4.1 图卷积神经网络 072
2.4.2 图注意力网络 072
2.5 小结 073
参考文献 073
拓展阅读 074
第3章 深度生成模型 078
3.1 变分自编码器 078
3.1.1 自编码器 078
3.1.2 隐变量生成模型 080
3.1.3 变分自编码器 081
3.2 生成式对抗网络 084
3.2.1 生成式对抗网络的理论分析 085
3.2.2 Wasserstein生成式对抗网络 086
3.3 流生成模型 088
3.3.1 随机变量替换 088
3.3.2 标准化流 089
3.3.3 RealNVP网络 091
3.3.4 Glow 091
3.3.5 流模型在文本预训练表示上的应用 093
3.4 小结 093
参考文献 094
第4章 深度强化学习 095
4.1 基于值函数的算法 095
4.1.1 动态规划 096
4.1.2 蒙特卡洛方法 097
4.1.3 时间差分学习 097
4.1.4 基于值函数的深度强化学习 098
4.2 策略梯度算法 102
4.2.1 策略梯度 102
4.2.2 策略梯度的基本形式 102
4.2.3 基于执行器-评价器的策略梯度方法 104
4.2.4 深度确定性策略梯度 106
4.2.5 异步优势算法 107
4.3 CartPole编程实例 108
4.3.1 CartPole简介 108
4.3.2 DQN 109
4.3.3 Actor-Critic 111
4.3.4 训练结果 113
4.4 小结 113
参考文献 114
拓展阅读 114
第5章 自然语言处理、知识图谱和可解释人工智能 117
5.1 自然语言处理与文本挖掘 117
5.1.1 自然语言处理概述 117
5.1.2 NLP任务 119
5.1.3 医学领域的NLP任务 121
5.1.4 NLP评估度量 123
5.1.5 NLP实践准备 124
5.1.6 医疗领域的关系抽取 130
5.1.7 应用案例:药品不良反应抽取 133
5.1.8 小结 135
5.2 知识图谱 135
5.2.1 知识图谱介绍 135
5.2.2 知识图谱构建技术 137
5.2.3 知识图谱的应用技术 139
5.2.4 生物医药知识图谱 140
5.2.5 应用案例:基于“疾病-化合物”关系的药物筛查 142
5.2.6 小结 142
5.3 可解释人工智能 142
5.3.1 可解释性概述 142
5.3.2 可解释性相关方法 143
5.3.3 可解释性的评价方法 149
5.3.4 可解释性应用案例 150
5.3.5 小结 151
参考文献 151
拓展阅读 154
第二部分 数据基础与表征 159
第6章 分子结构与生物活性数据 160
6.1 生物大分子结构数据库 160
6.1.1 蛋白质和核酸三维结构数据库 161
6.1.2 生物大分子复合物结构数据库 163
6.1.3 特定功能或结构类型的生物大分子结构数据库 168
6.1.4 肽类结构数据库 174
6.2 小分子结构数据库 175
6.2.1 综合性库 175
6.2.2 分子晶体结构数据库 179
6.2.3 天然产物数据库 181
6.2.4 虚拟筛选分子库 182
6.2.5 算法生成的虚拟分子库 183
6.3 生物活性数据库 186
6.4 小结 188
参考文献 191
拓展阅读 195
第7章 分子数据的表征 198
7.1 小分子化合物的表征 198
7.1.1 基于专业知识的小分子表征 198
7.1.2 基于字符串的表征 206
7.1.3 基于图的表征 214
7.1.4 基于图像的表征 218
7.1.5 实施案例 221
7.2 蛋白质的表征 221
7.2.1 基于序列固有性质 222
7.2.2 基于物理化学性质 228
7.2.3 基于结构性质 232
7.2.4 蛋白质表征相关工具 233
7.3 核酸序列的表征 236
7.3.1 基于序列信息的特征表征 236
7.3.2 基于物理化学性质的特征表征 243
7.3.3 基于二级结构的特征表征 250
7.3.4 实施案例 253
7.4 小结与展望 253
参考文献 253
拓展阅读 257
第三部分 人工智能与药物设计 261
第8章 药物靶标发现与识别 262
8.1 生物组学分析与药物靶标发现和药物重定位 262
8.1.1 多组学数据分析 262
8.1.2 基于组学的药物靶点预测 262
8.1.3 基于组学的药物重定位 267
8.1.4 案例解析 269
8.1.5 小结与展望 271
8.2 基于序列的蛋白质可药靶性的发现 272
8.2.1 基于蛋白质序列相似性的功能预测方法 272
8.2.2 可靠药物靶点信息的数据源 277
8.2.3 基于序列相似性比对的可药靶性发现 279
8.2.4 基于序列衍生性质的可药靶性发现 280
8.3 基于结构与网络的可药靶性识别 285
8.3.1 基于结构的可药靶性识别 285
8.3.2 基于网络的可药靶性识别 291
8.3.3 小结与展望 303
8.4 网络药理学与药物重定向 303
8.4.1 网络药理学概述 303
8.4.2 生物分子网络的构建 305
8.4.3 基于网络的靶标发现和药物重定向 311
8.4.4 实施案例——基于图神经网络的药物重定位 316
8.4.5 小结与展望 317
参考文献 317
第9章 分子结构预测 323
9.1 蛋白质结构预测 323
9.1.1 蛋白质结构 323
9.1.2 蛋白质二级结构预测 325
9.1.3 蛋白质三级结构预测 326
9.1.4 基于模板的蛋白质结构建模 328
9.1.5 基于穿线法的蛋白质结构预测 330
9.1.6 基于片段组装的方法 332
9.1.7 从头折叠算法 333
9.1.8 基于氨基酸协同突变的接触预测 334
9.1.9 基于端到端的结构预测 335
9.1.10 小结与展望 338
9.2 核酸结构预测 338
9.2.1 核酸结构概述 338
9.2.2 核酸结构预测中的传统计算方法 341
9.2.3 人工智能在核酸结构预测中的应用 346
9.2.4 应用实例与代码 348
9.2.5 小结与展望 349
9.3 小分子构象预测 349
9.3.1 分子的几何结构 349
9.3.2 小分子构象预测方法的发展 351
9.3.3 实施案例 357
9.3.4 小结与展望 360
参考文献 360
拓展阅读 370
第10章 量子化学与分子力场的发展 373
10.1 人工智能用于计算化学 373
10.1.1 加速量子化学计算 373
10.1.2 人工智能用于化学反应 377
10.1.3 人工智能在高阶量子电荷预测中的应用 383
10.1.4 小结与展望 388
10.2 分子力场的发展及优化 389
10.2.1 经典分子力场 389
10.2.2 极化力场 394
10.2.3 机器学习力场 396
10.2.4 机器学习力场的优势 401
10.2.5 机器学习力场的挑战 404
参考文献 406
拓展阅读 411
第11章 小分子药物生成与从头设计 414
11.1 基于片段的药物设计 414
11.1.1 简介 414
11.1.2 FBDD步骤 415
11.1.3 计算机辅助的基于片段的药物设计 420
11.1.4 FBDD的经典成功案例 420
11.1.5 小结与展望 423
11.2 分子生成模型 423
11.2.1 基于GAN的分子生成模型 423
11.2.2 其他分子生成模型 437
11.2.3 基于GAN的分子生成模型的优势与不足 440
11.2.4 分子生成模型的挑战与展望 442
11.2.5 小结 445
11.3 三维分子生成 446
11.3.1 三维分子生成中的分子表示 446
11.3.2 三维分子生成模型 449
11.3.3 三维分子生成模型在药物发现中的应用 456
11.4 逆合成预测 457
11.4.1 简介 457
11.4.2 单步逆合成 457
11.4.3 多步逆合成 461
11.4.4 小结 463
11.5 反应表现预测及反应条件优化 463
11.5.1 反应产率预测 463
11.5.2 反应活性预测 466
11.5.3 反应选择性预测 467
11.5.4 反应活化能和过渡态预测 470
11.5.5 反应条件优化 472
11.5.6 小结 474
参考文献 474
拓展阅读 482
第12章 小分子药物设计与优化 485
12.1 小分子-靶标结合亲和力预测与打分函数的设计 485
12.1.1 小分子靶标结合亲和力预测与打分函数 485
12.1.2 基于人工智能的打分函数 486
12.1.3 基于人工智能的DTA预测模型 496
12.1.4 问题和展望 498
12.2 融合人工智能的分子对接与虚拟筛选方法 499
12.2.1 分子对接方法与挑战 499
12.2.2 机器学习与系综对接 499
12.2.3 深度学习与结合构象预测 502
12.2.4 深度学习与虚拟筛选 505
12.3 基于配体的虚拟筛选 507
12.3.1 传统基于配体的虚拟筛选方法 507
12.3.2 基于人工智能的配体虚拟筛选方法 511
参考文献 514
拓展阅读 519
第13章 基于人工智能的大分子药物设计 522
13.1 大环类药物设计 522
13.1.1 大环类药物概述 522
13.1.2 大环类药物的研究现状 523
13.1.3 大环类药物的设计方法 527
13.1.4 大环类药物的设计实例 532
13.2 蛋白质与多肽类大分子药物设计 535
13.2.1 蛋白质与多肽类大分子药物概述 535
13.2.2 蛋白质与多肽类大分子药物设计中的挑战 536
13.2.3 蛋白质与多肽类大分子药物的设计方法 538
13.2.4 蛋白质与多肽类大分子药物的设计实例 543
13.3 核酸类大分子药物设计 545
13.3.1 核酸类大分子药物概述 545
13.3.2 核酸类大分子药物的设计模式 546
13.3.3 核酸类大分子药物的设计方法 548
13.3.4 核酸类大分子药物的设计实例——以NucleicNet为例 551
参考文献 555
拓展阅读 559
第14章 ADMET性质预测 562
14.1 基于人工智能的ADMET预测 562
14.1.1 基于人工智能的ADMET预测概览 562
14.1.2 可解释性人工智能在ADMET中的应用 567
14.2 药物毒性预测 574
14.2.1 药物毒理学简介 574
14.2.2 计算毒理学的出现和发展 575
14.2.3 人工智能在毒性预测方面的进展 575
14.2.4 毒性预测模型 576
14.2.5 人工智能的可解释性与警示子结构的识别 582
14.2.6 小结与展望 583
14.3 药物代谢产物预测 584
14.3.1 药物代谢及药物代谢预测简介 584
14.3.2 药物代谢产物预测的研究现状 585
14.3.3 药物代谢产物预测的案例分析 591
14.3.4 药物代谢预测的挑战与展望 593
参考文献 594
拓展阅读 603
第15章 药物晶型预测与剂型设计 606
15.1 药物晶型预测 606
15.1.1 药物晶型的结构 606
15.1.2 药物晶型的性质 608
15.1.3 药物晶型的预测 610
15.2 药物剂型设计 617
15.2.1 药物剂型简介 617
15.2.2 原料药性质对剂型和工艺的影响 619
15.2.3 药物剂型设计与预测 622
15.3 展望 624
参考文献 625
拓展阅读 627
附录:缩略语对照表 629
索引 637