本书以构建因果推断基础知识框架,主要从Rubin因果模型、Pearl因果模型、基于图模型的因果效应计算、因果结构学习、因果机器学习五个篇章为大家介绍智因果推断的基础理论、模型、方法、和前沿应用,引领学生步入充满趣味与挑战的因果推理领域。
本书是一本系统介绍因果推断的基本概念、理论与方法的参考书,主要特色如下:
?从Rubin潜在结果模型开始,系统的介绍了因果推断的基本概念、基本问题和重要假设,然后详细介绍了基于Rubin潜在结果模型的经典和代表性的因果效应计算方法;
?基于Rubin潜在结果模型引入Pearl因果结构模型,比较系统的从图模型的角度详细介绍了Pearl因果推断框架下的do演算、混杂偏差、选择偏差、反事实、中介效应等因果推断的重要概念与理论方法;
?从Pearl因果结构模型的角度详细介绍了经典与最新因果结构学习算法的基本思想和执行过程,以及Pearl因果推断框架在实际数据中的因果效应计算方法。
PREFACE
前 言
因果关系是事物之间的本质关系,在揭示事物的发生机制、指导干预行为等方面具有不可替代的作用。自然科学、人文科学等学科和研究领域需要探索事物之间的因果关系和因果作用,以便更深层次地理解和认知自然现象和社会现象的规律,推动学科和研究领域的发展。例如,在人工智能与计算机科学领域,当前以数据驱动的深度学习技术可以使机器发现数据中的相关关系,但是忽略了数据中固有的因果关系,使得现有机器学习算法在面临数据分布发生变化时表现出泛化能力弱且缺乏可解释性等问题,难以适用于开放、动态、真实的应用场景。图灵奖获得者Judea Pearl教授在其专著《为什么:关于因果关系的新科学》中指出如果要真正解决科学问题,甚至开发具有真正意义智能的机器,因果关系是必然要迈过的一道坎。 图灵奖得主Yoshua Bengio教授在Nature杂志2019年4月的专访中认为人工智能下一步发展的关键要素是对因果关系的理解。2017年7月,国务院发布的《新一代人工智能发展规划》中明确指出,因果模型是建立新一代人工智能前沿基础理论的重要组成部分。
本书是面向高年级本科生或研究生的因果关系推断的入门参考书,主要介绍数据驱动的因果推断模型,以因果推断中混杂偏差的识别与修正问题为核心内容,首先从Rubin的潜在结果模型框架开始,详细介绍因果推断的基本概念、假设、方法,然后从潜在结果模型引入Pearl的结构因果模型框架。本书以Pearl的结构因果模型框架为主,详细介绍Pearl因果推断框架下的do演算、混杂偏差、选择偏差、反事实、中介效应、因果结构学习方法等基于图模型的因果推断的基本概念、理论、方法。
本书包括13章内容。第1章介绍了因果关系推断的基本概念。第2章和第3章介绍了Rubin的潜在结果模型,包括潜在结果模型的基本概念、假设,以及因果效应估计方法。第4章介绍了Pearl结构因果模型框架下的do演算、因果贝叶斯网络、结构因果模型的基本概念。第5章介绍了混杂偏差的图形化定义与识别、后门准则和前门准则。第6章介绍了图形化定义的选择偏差与计算方法。第7章和第8章分别介绍了反事实和中介效应。第9章介绍了图形化定义的工具变量的基本概念和计算方法。第10~12章介绍了从观测数据中学习因果结构的基本概念与方法。第13章介绍了因果结构未知情形下的因果效应估计方法。
CONTENTS
目??录
推荐序
前言
符号表
第一部分 因果推断基础
第1章 因果关系推断的基本概念 2
1.1 因果关系推断 2
1.2 混杂与辛普森悖论 3
1.3 随机对照试验 4
1.4 数据驱动的因果推断模型 4
1.5 图模型 5
1.5.1 有向无环图 5
1.5.2 最大祖先图 7
1.6 贝叶斯网络 11
参考文献 15
第二部分 Rubin潜在结果
模型与因果效应
第2章 潜在结果模型与因果效应
的概念 18
2.1 潜在结果模型的概念 18
2.1.1 潜在结果的定义 18
2.1.2 潜在结果模型 20
2.2 因果效应定义与假设 20
2.2.1 个体因果效应 20
2.2.2 平均因果效应 21
2.2.3 异质性因果效应 25
2.3 拓展阅读 27
参考文献 27
第3章 因果效应估计方法 29
3.1 匹配方法 29
3.1.1 选择协变量 31
3.1.2 定义距离度量 31
3.1.3 选择匹配算法 34
3.1.4 评估匹配算法 39
3.2 分层方法 40
3.3 重加权方法 42
3.3.1 样本重加权 42
3.3.2 样本和协变量重加权 46
3.4 表示学习方法 49
3.4.1 问题转化 49
3.4.2 反事实回归方法 50
3.4.3 保持个体相似性的
因果效应估计方法 54
3.5 拓展阅读 60
参考文献 61
第三部分 Pearl因果
图模型与方法
第4章 干预与因果图模型 64
4.1 干预与do演算 64
4.2 因果贝叶斯网络模型 65
4.2.1 因果贝叶斯网络基础 65
4.2.2 因果贝叶斯网络与干预 68
4.3 结构因果模型 71
4.3.1 结构因果模型的定义 71
4.3.2 结构因果模型与干预 72
4.4 拓展阅读 73
参考文献 73
第5章 混杂偏差 75
5.1 混杂因子的图形化表示 75
5.2 父代因果效应准则 77
5.3 后门准则 79
5.4 前门准则 81
5.5 do演算公理系统 83
5.6 拓展阅读 85
参考文献 86
第6章 选择偏差 87
6.1 选择偏差的概念 87
6.2 选择偏差的图形化表示 88
6.3 选择后门标准 90
6.4 拓展阅读 92
参考文献 93
第7章 反事实推断 95
7.1 反事实的定义 95
7.2 反事实计算 96
7.3 反事实和干预 98
7.3.1 反事实与do算子 98
7.3.2 后门的反事实解释 100
7.4 反事实与潜在结果 102
7.5 反事实与决策 104
7.5.1 必要因、充分因和充要因 104
7.5.2 参与者处理效应 106
7.6 拓展阅读 108
参考文献 108
第8章 因果中介效应 110
8.1 中介效应的基本概念 110
8.2 基于线性模型的因果中介效应 113
8.3 基于反事实的因果中介效应 115
8.4 进一步分析 121
8.5 拓展阅读 123
参考文献 123
第9章 工具变量 125
9.1 工具变量的概念 125
9.1.1 三个基本条件 125
9.1.2 工具变量不等式 126
9.1.3 同质性与单调性 127
9.2 工具因果效应估计 129
9.2.1 二值工具因果效应估计 129
9.2.2 连续工具因果效应估计 130
9.3 条件工具变量 131
9.4 识别工具变量 133
9.5 拓展阅读 135
参考文献 135
第四部分 因果结构学习方法
第10章 组合优化因果结构学习 138
10.1 限制优化学习 139
10.1.1 理论基础 139
10.1.2 PC算法 142
10.1.3 FCI算法 154
10.2 打分优化学习 161
10.2.1 基本思路 161
10.2.2 评分函数 162
10.2.3 经典的打分优化
学习算法 165
10.3 拓展阅读 168
参考文献 168
第11章 连续优化因果结构
学习 171
11.1 连续优化方法 171
11.1.1 模型构造 171
11.1.2 权重邻接矩阵 172
11.1.3 数值问题转化 173
11.1.4 无环约束方法 174
11.1.5 迭代优化 176
11.2 从线性模型到神经网络 177
11.3 用MLP进行DAG学习 179
11.3.1 多层感知机 179
11.3.2 生成模型构建 180
11.3.3 邻接矩阵表示 181
11.3.4 训练优化 183
11.4 DAG-GNN 183
11.4.1 问题转化 184
11.4.2 变分自编码器 184
11.4.3 模型构造 187
11.4.4 离散情形 188
11.4.5 无环约束改进 188
11.4.6 训练优化 189
11.5 对抗优化方法SAM 190
11.5.1 生成对抗网络 190
11.5.2 深度神经网络拟合
因果机制 190
11.5.3 学习准则 192
11.6 拓展阅读 195
参考文献 196
第12章 局部因果结构学习 198
12.1 基于限制的局部因果结构学习 198
12.1.1 局部骨架学习 198
12.1.2 局部骨架定向 208
12.2 基于打分的局部因果结构学习 210
12.3 局部到全局的因果
结构学习 211
12.3.1 MMHC算法 211
12.3.2 对称性校正 212
12.4 拓展阅读 213
参考文献 214
第五部分 因果结构未知情形下的因果效应估计
第13章 基于CPDAG的因果效应
估计 218
13.1 基于全局CPDAG的
因果效应估计 218
13.1.1 IDA算法思想 218
13.1.2 IDA算法执行 219
13.2 基于局部因果结构的
因果效应估计 222
13.2.1 总效应和直接效应 222
13.2.2 等价类与链组件 223
13.2.3 基于链组件的全局方法 224
13.2.4 基于链组件的局部方法 227
13.3 拓展阅读 231
参考文献 231