本教材重点面向我国经济学、社会学、政治学等相关社会科学高年级本科生和硕博研究生,详细介绍了断点回归、双重差分、匹配等经典微观计量研究方法的核心概念、基本原理、代码算法和案例应用。教材具有以下三个特点:,破除唯数理,仅保留核心公式,并且任何一个公式都有具体算例作为支撑讲解,以阐释概念和原理。第二,打开方法黑箱,通过简单的Excel数字表格的运算(数据行列的加减乘除),向读者展现了当前被广泛应用的微观计量算法的底层操作。第三,重视从理论到应用的转化,丰富的中国故事和经典案例,帮助了解微观计量方法的实际分析过程。本教材致力于构建一个引擎,力图启发我们的学生创造性地发展出新的概念理论与分析工具,从这场因果革命的追随者变成引领者!
无论什么教材,都需要重视核心概念和基本原理,姚东旻教授的重视特别表现在:尝试采用多种方法,力图阐明其背后的道理和对应的数据直觉。
江西财经大学统计学院讲席教授 邱东
从现象或者果出发探寻其原因所在的过程本身就是科学研究的过程。问题在于如何推断所要探寻的因果关系,这本身就属于方法的问题了,也是这部教材的主题。
中央财经大学中国财政发展协同创新中心首席专家 李俊生
在诸多现实的财政问题中,基础性的一环是因果关系识别。本书作为微观计量经济学教材,详细介绍了当前学界常用的因果推断方法原理与技术手段。区别于现有同领域教材,丰富的中国故事和精巧、直观的Excel专栏是本书特点。
中央财经大学教授 马海涛
本教材首先向计量经济学、应用统计学、社会心理学以及财政学的国际
学者致敬,特别是唐纳德·西斯尔思韦特(Donald L.Thistlethwaite,首次提出断点
回归设计原理)、唐纳德·坎贝尔(Donald T. Campbell,首次提出断点回归设计
原理)、菲利普·莱特(Philip G. Wright,首次提出工具变量的原理)、奥利·阿
申费尔特(Orley C. Ashenfelter,早将双重差分法引入经济学研究)、保罗·罗
森堡(Paul R. Rosenbaum,早提出倾向得分匹配法的原理)、唐纳德·鲁宾
(Donald B. Rubin,早提出倾向得分匹配法的原理)、杰姆斯·海科曼(James J.
Heckman,首次提出样本选择模型)、乔舒亚·安格里斯特( D. Angrist,久
负盛名的应用微观计量经济学教科书编纂者)和约恩-斯特芬·皮施克(J.rn-Steffen
Pischke,久负盛名的应用微观计量经济学教科书编纂者)等。正是他们或是天才般
的,或是苦行僧般的,或是虔诚信徒般的不懈努力,才引发并推动了整个社会科学
研究领域的重大革命因果推断革命。
推本溯源,是人类社会得以繁荣发展的基础。无论是自然科学研究还是社会科
学研究,都集中关注因果问题。由于控制实验可以对不可观测的未知干扰因素加以
人为控制,因果推断的黄金准则就是可控实验或随机对比对照实验,通过有意
识地创造数据并加以解读,从而得到人类理念中的因果。自然科学研究领域的
因果推断即是如此。但在社会科学的问题研究中,这一过程大多不可行。一方面,
相比自然科学,社会科学的研究对象更加缺乏稳定性和固定性(费曼曾经说过物理
学家应该庆幸物理世界中的分子、原子没有自由意志),人的主观意识和社会
行为大多难以预测和控制,使得社会现象更具随机性。另一方面,严格受控制的大
规模社会实验也因为涉及人类本身而无法实施。因此,很多时候我们不得不退而
求其次,直接使用社会经济发展中的观测数据,而完全舍去了创造数据 这一
重要过程。从这个视角来说,同样都是分析与解读数据,由于数据产生过程(data
generating process,DGP)大相径庭,其解读后的可信性也自然相去甚远。相比
自然科学中对创造数据进行解读,直接利用观测数据进行的经验分析往往难以探索
复杂现象背后真正的因果联系。
XIV
因果推断初步微观计量经济学导论
正是在这样的背景下,因果推断革命研究观测数据的产生过程,巧妙地设计思
想实验,借助观测数据可能地模拟出自然科学研究中常见的可控实验
或随机对比对照实验,实现了从观察数据到创造数据的巨大跳跃,从
而得以展开真正的社会科学因果推断!这一革命的影响力有多大?读一读近十年发
表在经济学期刊上的学术论文,再看一看生活中随处可见的智能广告推送,就
可了解大概。
遗憾的是,当前我国经济学教材体系,尚未完全体现这一重大革命。相对系统
地介绍社会科学中因果推断方法的教材还不多,特别地,在日常阅读文献和审稿过
程中,我发现大量学生为了迎合前沿实证方法的学术潮流,在对各种微观计量经济
学方法的基本原理完全不知的情况下就生搬硬套,从而导致终写出的文章照猫
画虎反类犬。由于作为运算工具的计量软件越来越聪明,这一问题暂时被掩
盖了。简单运行几行代码,研究结果就显示出来,但这样的结果却蕴藏着重大的危
机。一方面,由于不懂理论原理和方法使用的根本原则,研究结果错误频出。退一
步讲,即使没有错误,也因对研究设计的基本思想理解不够,难以创造性地设
计出更有效的思想实验,无法有效加载因果推断工具箱中的各种工具。这样一
来,理论的应用层次就比较低,无法解决重大的理论和现实问题。
更重要的一个方面是,简单地重复运行机械化的代码,不去参透理论的精
髓,将使得我们的学生基本不可能创造性地发展出新的理论与分析工具。这一点也
可以从这本讲义及引用文献中看出。在社会科学研究的因果推断方面,中国学者的
研究,也包括我本人的研究成果,绝大多数集中于应用,都是引用他国(主要是欧
美国家)学者开发好的工具、算法甚至案例来研究中国问题。鲜有本土学者能够开
发出主流的、被国际学界普遍使用的因果推断工具。作为一名高校教师,我看到如
今的局面,内心是很难过的。我常常思索,何时我们才能越过这一关卡,应该用怎
样的方法去跨出这一步。在一定程度上,这本教材是对该问题的自我回答。
本教材主要有以下三个特点:
,高度重视核心概念和基本原理。但考虑到教科书定律公式越
多,受众越少,讲义中列出的全部概念和公式,我认为应该都是不能再作删减的核
心内容。对于这些概念和公式,我们也尝试采用多种方法,力图阐明其背后的道理
和对应的数据直觉。
第二,为打开理论到应用的黑箱,彻底放弃了主流计量软件,放弃简单代
码的解决方案,借助Excel运算表格,仅仅使用数据的四则运算(也有一些高级优化
工具),完全实现当前被广泛应用的微观计量算法操作。这样做的好处是:迅
XV
自 序
速让读者掌握基本概念和算法原理,知晓理论和数据运算如何对应;同时也帮助读
者快速理解主流计量软件中,一行行的代码到底是在执行何种运算指令。通过这样
的训练,读者可以真正地打开微观计量经济学这一工具箱,在遇到不同的问题时,
依据问题性质,策略性地选择和设计实证思路。对于这一尝试,我们已进行了7个
年头。在此期间,很多学生因此得益,做出了非常突出的成绩。
第三,通过大量的案例充分体现其应用性。我们反复推敲,选择合适的案例,
重点阐述案例文章如何利用特定的数据,嵌套、构造各种自然实验或准实验,
进而使用微观计量工具箱中的各式工具展开因果分析。我们特意筛选了一些具有中
国元素的案例,一个个案例以小见大,体现了我国经济改革发展的伟大成就,从而
在专业训练中充分体现具有中国特色的经济发展道路,润物无声地让我们的学生体
会理论自信与道路自信,终实现课程思政的专业化。
真诚地感谢邱东、李俊生、马海涛教授,他们都是国务院学位评定委员会的委
员(统计学、理论经济学、应用经济学),他们的学术气象以及对后辈学生真诚无
私的提携和帮助,让我深深感动,也会成为我的学术遵循与榜样。同样真诚地感谢
2014年至今听过这门课程的全部学生,正是他们的包容和热情,给了我极大的动力
和勇气去完成这本教材。他们的点滴进步,都让我为之欢呼雀跃。对他们的极大期
许,正是这本书终成稿的意义。特别地,对于在教材撰写和整理过程中,付
出过艰辛努力的许艺煊、张鹏远、崔孟奇、赵江威等博士生们,希望本教材的正式
出版,可以让你们的进度条上多出一个令人满意的已完成。
后,本教材的顺利完成离不开家人们的支持,他们时不时在我沉思与书写时
的提醒和打扰,让我觉得世上的因果关系竟如此美妙,且值得珍惜。
因能力限制,本书错误还难免,特别欢迎读者指正。
姚东旻
2022年1月1日
姚东旻,现为中央财经大学教授、博士生导师,任中央财经大学中国财政发展协同创新中心副主任,兼任财政税务学院党委副书记,财政部专家工作室与财政部人才库入库专家。主要研究方向为财政基础理论、组织经济学、博弈论应用、基于数据的因果推断。已在国内外刊物发表论文80余篇,出版学术专著和译著5部。曾荣获第七届吴玉章人文社会科学奖、第六届全国优秀财政理论研究成果二等奖、第七届教育高等学校科学研究优秀成果奖(人文社科类)三等奖、第八届教育高等学校科学研究优秀成果奖(人文社科类)二等奖、第四届中国青年经济学者论坛优秀论文奖等荣誉。主持国家社科基金重点项目、国家社科基金青年项目以及部委与企业委托研究项目二十余项。
第1章 导论与核心概念
本章前言 1
本章关键词 2
导入案例 2
1.1 因果性与相关性 3
1.1.1 因果性4
1.1.2 相关性4
1.1.3 因果关系与相关关系4
1.1.4 常见错误6
1.2 随机分配与自然实验 7
1.2.1 控制实验7
1.2.2 随机控制实验7
1.2.3 自然实验与准实验8
1.2.4 自然实验、准实验与随机控制实验:相互作用9
1.3 处理效应11
1.3.1 处理、干预与处理效应11
1.3.2 反事实12
1.3.3 平均处理效应14
1.3.4 Excel专栏:平均处理效应ATE的估计 18
1.4 可观测选择与不可观测选择 21
1.4.1 可观测选择与不可观测选择定义21
1.4.2 可观测选择21
1.4.3 不可观测选择23
1.5 选择性偏差 24
1.5.1 选择性偏差的定义24
XVIII
因果推断初步微观计量经济学导论
1.5.2 选择性偏差的刻画24
1.5.3 选择性偏差的表现形式26
1.5.4 选择性偏差的分解27
1.5.5 Excel专栏:选择性偏差分解 29
1.5.6 选择性偏差的解决方法33
1.5.7 辛普森悖论34
1.5.8 Excel专栏:辛普森悖论 34
1.6 政策评估计量方法 37
1.7 本章总结38
1.8 经典案例分析 39
本章习题 42
参考文献 44
第2章 匹 配
本章前言 45
本章关键词 46
导入案例 47
2.1 协变量匹配的基本思想 49
2.1.1 协变量匹配的设计思路49
2.1.2 协变量匹配的基本假设51
2.2 倾向得分匹配的基本思想 54
2.2.1 倾向得分匹配的设计思路54
2.2.2 倾向得分匹配的基本假设和性质58
2.3 匹配的方法与规则 59
2.3.1 匹配方法59
2.3.2 匹配规则62
2.4 匹配方法的实施步骤 63
2.4.1 协变量匹配63
2.4.2 Excel专栏:协变量匹配 66
2.4.3 Excel专栏:协变量匹配后的偏差分解 69
2.4.4 倾向得分匹配83
XIX
目 录
2.4.5 Excel专栏:倾向得分匹配 85
2.5 匹配与回归的比较 89
2.5.1 协变量匹配与回归的比较89
2.5.2 Excel专栏:协变量匹配估计与回归估计的差异 90
2.5.3 倾向得分匹配与回归的比较96
2.6 总结 97
2.7 中国故事98
2.8 经典案例分析 100
本章习题 102
参考文献 104
第3章 双重差分法
本章前言 105
本章关键词 106
导入案例 106
3.1 双重差分法简介 107
3.1.1 为什么使用双重差分法107
3.1.2 双重差分法的设计思路108
3.1.3 双重差分法的前提假设109
3.1.4 双重差分法估计量偏差的来源110
3.2 特定数据类型的双重差分估计 112
3.2.1 混合横截面数据的双重差分估计113
3.2.2 Excel专栏:混合横截面数据的双重差分估计 115
3.2.3 面板数据双重差分估计118
3.2.4 Excel专栏:面板数据双重差分估计 119
3.2.5 多期DID 127
3.2.6 Excel专栏:多期DID实践 129
3.3 中国故事134
3.4 经典案例分析 135
3.4.1 强制许可:来自敌国贸易法的证据135
3.4.2 快乐的医生会让宝宝更快乐吗?医生的薪酬制度对产前护理
服务的影响139
因果推断初步微观计量经济学导论
3.4.3 美国放松银行监管对收入分配的影响143
本章习题 146
参考文献 148
第4章 工 具 变 量
本章前言 149
本章关键词 150
导入案例 150
4.1 工具变量的基本原理 151
4.1.1 内生性问题及其解决方法151
4.1.2 工具变量的有效性154
4.1.3 Excel专栏:基于Excel的工具变量相关性与外生性的检验 160
4.1.4 工具变量的估计162
4.1.5 Excel专栏:基于Excel的2SLS估计 166
4.1.6 Excel专栏:基于Excel的瓦尔德估计 168
4.1.7 政策效应的工具变量法估计172
4.1.8 Excel专栏:基于Excel的政策效应估计 177
4.1.9 局部平均处理效应的工具变量估计原理181
4.1.10 Excel专栏:基于Excel的局部平均处理效应 185
4.2 解决内生性问题的其他方法扩展回归模型 189
4.2.1 Excel专栏:基于Excel的ERM对内生连续变量处理 191
4.3 本章总结192
4.4 中国故事193
4.5 经典案例分析 194
4.5.1 以小河流的数量和取消科举制度之前的短期考试成绩作为工具
变量来分析科举制废除对政治稳定的影响 194
4.5.2 以长子的性别和孩子出生前一年的罚款率作为工具变量分析是
否是独生子女对近视概率的影响 197
本章习题 200
参考文献 202
目 录
第5章 断 点 回 归
本章前言 203
本章关键词 204
导入案例 204
5.1 断点回归的基本概念 205
5.1.1 从BA到RD 205
5.1.2 断点回归设计:SRD与FRD 208
5.2 断点回归的估计 211
5.2.1 RD估计的起源与背景 211
5.2.2 断点回归估计213
5.2.3 RD的非参数估计方法 216
5.2.4 边界非参数回归216
5.2.5 局部线性回归218
5.2.6 Excel专栏:局部线性回归 220
5.2.7 局部多项式回归222
5.2.8 带宽和多项式次数的选择223
5.2.9 Excel专栏:带宽的选择 225
5.2.10 模糊断点回归估计的设计228
5.2.11 Excel专栏:模糊断点回归的2SLS估计 229
5.3 断点回归的有效性检验 232
5.3.1 检验驱动变量S的连续性232
5.3.2 Excel专栏:检验驱动变量的连续性 232
5.3.3 检验断点处的准随机性234
5.4 本章总结235
5.5 中国故事237
5.6 经典案例分析 238
5.6.1 北京的限行政策238
5.6.2 高税收与高避税率245
5.6.3 墨西哥的毒战248
本章习题 255
参考文献 257
因果推断初步微观计量经济学导论
第6章 前沿方法介绍
本章前言 259
本章关键词 260
导入案例 260
6.1 倾向得分匹配双重差分(PSM-DID) 262
6.1.1 PSM-DID的概念 262
6.1.2 经典案例分析265
6.2 合成控制法(SCM) 272
6.2.1 合成控制的基本概念272
6.2.2 合成控制的工作原理272
6.2.3 经典案例分析276
6.3 三重差分(DDD) 282
6.3.1 三重差分基本概念282
6.3.2 Excel专栏:三重差分计算展示 287
6.3.3 Excel专栏:DID与DDD的比较 289
6.3.4 中国故事291
6.3.5 经典案例分析292
本章习题 302
参考文献 303