深度学习在许多领域已经取得了令人瞩目的成就。而今,它正在整个科学界特别是生命科学界掀起波澜。《基于深度学习的生命科学》是一本注重实际操作的书,为开发者和科学研究者讲述了如何在基因组学、化学、生物物理学、显微镜学、医学分析及其他领域中应用深度学习。
《基于深度学习的生命科学》介绍了一些深度网络原型,非常适合那些准备将自己的技能应用于诸如生物学、遗传学和药物发现等科学应用的开发人员和科学家。你将跟随设计一个将物理、化学、生物学和医学联系在一起的新疗法问题的案例研究,该案例代表了科学研究中的一个具挑战性的问题。通过该书,你将学到:
学习在分子数据上执行机器学习的基础知识。
理解为什么深度学习是研究遗传学和基因组学的有力工具。
应用深度学习理解生物物理系统。
通过DeepChem获得机器学习的简单认识。
使用深度学习分析显微图像。
使用深度学习技术分析医学扫描图像。
了解变分自编码器和生成对抗网络。
解释你的模型在做什么以及它是如何工作的。
深度学习在许多领域已经取得了令人瞩目的成就。而今,它正在整个科学界特别是生命科学界掀起波澜。本书是一本注重实际操作的书,为开发者和科学研究者讲述了如何在基因组学、化学、生物物理学、显微镜学、医学分析及其他领域中应用深度学习。
“本书是对科学界的宝贵贡献。”
——Prabhat
NERSC、Lawrence Berkeley国家实验室数据和分析服务团队负责人
“本书是一本优秀的高水平著作,提供了特定技术的切入点,和对基础科学的讨论。”
——C.Titus Brown
UC,Davis副教授
深度学习算法擅长于识别和利用大型数据集中的模式。本书概述了深度学习在生命科学许多领域的应用,包括在遗传学、药物发现以及医学诊断中的应用。
前言
近年来,生命科学和数据科学已经融合。机器人和自动化技术的进步使化学家和生物学家能够生成大量的数据。今天的科学家在一天内生成的数据比20年前他们的前辈在整个职业生涯中所能生成的还多。这种快速生成数据的能力也带来了许多新的科学挑战。我们不再处于一个数据可以通过加载到电子表格并通过制作几个图表来处理的时代。为了从这些数据中集中提取科学知识,我们必须能够识别和提取其中隐含的不明显的关系。
在过去几年中出现的深度学习技术是识别数据模式和关系的一种强大工具。深度学习是一类算法,它彻底改变了解决诸如图像分析、语言翻译和语音识别等问题的方法。深度学习算法擅长于识别和利用大型数据集中的模式。基于这些原因,深度学习在生命科学中有着广泛的应用。本书概述了深度学习在生命科学许多领域的应用,包括在遗传学、药物发现以及医学诊断中的应用。我们描述的许多示例都附有代码,这些代码提供了对方法的实际介绍,并为读者提供了未来研究和探索的起点。
本书约定
在本书中使用如下排版约定:
斜体字(Italic)
表示新的术语、链接、电子邮件地址、文件名和文件扩展名。
等宽字体(Constant width)
用于表示代码行以及段落内引用的程序中的元素,如变量、函数名、数据库、数据类型、环境变量、语句和关键词。
等宽黑体(Constant width bold)
表示由用户输入的命令或其他文本。
等宽斜体(Constant width italic)
表示应替换为用户提供的值或由上下文确定的值来替换的文本。
使用书中的代码
本书补充材料(代码示例、练习等)可从https://github.com/deepchem/DeepLearningLifeSciences 下载。
本书可帮你完成你的工作。一般来说,你可以在你的程序和文档中使用本书提供的示例代码。不需要联系我们获得许可,除非你正在编制该代码的重要部分。例如,使用本书中的几个代码块编写程序不需要获得许可,销售或发行O’Reilly 图书中的示例光盘则需要获得许可,通过引用本书和书中的示例代码来回答问题不需要许可,将本书中的大量示例代码用到你的产品文档中则需要获得许可。
我们提倡但不强制要求归属权声明。引用信息通常包括题目、作者、出版商和ISBN。例如:“Deep Learning for the Life Sciences by Bharath Ramsundar,Peter Eastman, Patrick Walters,and Vijay Pande (O’Reilly).Copyright:2019Bharath Ramsndar,Karl Leswing,Peter Eastman ,and Vijay Pande,978-1-492-03983-9”。
如果你觉得在使用本书的代码示例过程中超出了合理的使用范围或上述许可范围,请通过permissions@oreilly.com 与我们联系。
O’Reilly 在线学习
40 年来,O’Reilly 一直在提供技术和商业培训、知识、见解,以帮助公司取得成功。
我们独一无二的专家和创新者团队会通过书籍、文章、会议和在线学习平台分享他们的知识和专业知识。O’Reilly 在线学习平台为你提供了按需访问在线培训课程、深入的学习路径、交互式编码环境,以及来自O’Reilly 和200多家其他出版商的大量文本和视频。有关详细信息,请访问http://oreilly.com网站。
联系我们
任何有关本书的意见或疑问,请按照以下地址联系出版社。
美国:
O’Reilly Media, Inc.
1005 Gravenstein Highway North
Sebastopol, CA 95472
中国:
北京市西城区西直门南大街2 号成铭大厦C 座807 室(100035)
奥莱利技术咨询(北京)有限公司
我们在这本书的网页中列出了勘误表、示例和任何附加信息。可以在http://bit.ly/deep-lrng-for-life-science 网站访问此页面。
发表评论或咨询有关本书的技术问题,请发送电子邮件至bookquestions@oreilly.com。
关于我们的书籍、课程、会议和新闻的更多信息, 请参阅http://www.oreilly.com。
我们的Facebook:http://facebook.com/oreilly。
我们的Twitter:http://twitter.com/oreillymedia。
我们的YouTube:http://www.youtube.com/oreillymedia。
致谢
我们要感谢O’Reilly 的编辑Nicole Tache,以及技术审稿人和测试版审稿人对本书的宝贵贡献。此外,我们还要感谢Karl Leswing 和Zhenqin (Michael)Wu 对书中代码的贡献,以及Johnny Israeli 对基因组学一章的宝贵建议。
Bharath 感谢其家人在他许多个漫长的周末和夜晚编写本书时给予的支持和鼓励。
Peter 要感谢妻子始终如一的支持以及许多同事的帮助,他从他们那里学到了很多关于机器学习的知识。
Pat 要感谢妻子Andrea,以及女儿Alee 和Maddy,感谢她们的爱和支持。他还想感谢过去和现在在Vertex Pharmaceuticals 和Relay Therapeutics 公司的同事们,他从他们那里学到了很多。
最后,我们要感谢Deepchem 开放源码社区在整个项目中给予的鼓励和支持。
Bharath Ramsundar是Computable的联合创始人和首席技术官。
Peter Eastman在Stanford University开发了计算化学和生物学方面的软件。
Patrick Walters是Relay Therapeutics公司计算与信息学小组的负责人。
Vijay Pande是Andreessen Horowitz公司的合伙人。
目录
前言 1
第1 章 为什么是生命科学? 7
为什么是深度学习? 7
当代生命科学是关于数据的 8
你能学到什么? 9
第2 章 深度学习概论 15
线性模型 16
多层感知器 18
训练模型 22
验证 24
正则化 25
超参数优化 26
其他类型的模型 28
卷积神经网络 28
递归神经网络 29
延伸阅读 31
第3 章 基于DeepChem 的机器学习 33
DeepChem 数据集 34
训练一个预测分子毒性的模型 36
案例研究:训练MNIST 模型 44
MNIST 数字识别数据集 45
MNIST 的卷积结构 46
softmax 和SoftMaxCrossEntropy 50
结论 51
第4 章 分子的机器学习 53
什么是分子? 54
什么是分子键? 56
分子图 58
分子构型 59
分子的手性60
分子的特征表示 62
SMILES 字符串和RDKit 62
扩展– 连接指纹 62
分子描述符63
图卷积 64
训练一个模型来预测溶解度 65
MoleculeNet 67
SMARTS 字符串 67
结论 70
第5 章 生物物理的机器学习 71
蛋白质结构 73
蛋白质序列75
不能用计算方法预测3D 蛋白质结构吗? 77
蛋白质结合简介 78
生物物理数据的特征化 79
网格特征化80
原子特征化84
PDBBind 案例研究 85
PDBBind 数据集 85
特征化PDBBind 数据集 89
结论 93
第6 章 基因组学的深度学习 97
DNA、RNA 和蛋白质 98
现在是现实世界 100
转录因子的结合 102
一个用于TF 结合的卷积模型 103
染色质可接近性 106
RNA 干扰 109
结论 112
第7 章 显微镜检查的机器学习 115
显微学简介 117
现代光学显微技术 118
衍射极限 120
电子和原子力显微技术 122
超分辨显微技术 124
深度学习和衍射极限? 126
制备生物显微镜样本 126
染色 126
样本固定 128
切片样本 128
荧光显微技术 129
样本制备工件 131
深度学习应用 132
细胞计数 132
什么是细胞系? 132
细胞分割 136
计算分析 141
结论 141
第8 章 医学领域的深度学习 143
计算机辅助诊断 143
贝叶斯网络的概率诊断 145
电子健康记录数据 146
ICD-10 编码 147
那么无监督学习呢? 148
患者EHR 大型数据库存在危险吗? 149
用于放射学的深度学习 150
x 线扫描和CT 扫描 153
组织学 155
核磁共振扫描 156
学习模型作为一种治疗方法 157
糖尿病视网膜病变 158
结论 162
道德考虑 162
失业 163
小结 164
第9 章 生成模型 165
变分自编码 165
生成对抗网络 167
生成模型在生命科学中的应用 169
为先导化合物提供新思路 169
蛋白质的设计 170
用于科学发现的工具 170
生成建模的未来 170
使用生成模型 171
分析生成模型的输出 173
结论 176
第10 章 深层模型的解释 179
解释预测 180
优化输入 183
预测的不确定性 187
可解释性、可扩展性和实际后果 191
结论 192
第11 章 虚拟筛选工作流示例 193
为预测建模准备数据集 194
训练预测模型 201
为模型预测准备数据集 207
应用预测模型 211
结论 219
第12 章 前景和展望 221
医学诊断 221
个性化医疗 223
药物研发 225
生物学研究 226
结论 228