“相关性不等于因果性”是经济学界的一个老梗。虽然经济学家常年在数字里打滚,鉴别相关性与因果性却依然是个难题。经济现象通常受很多因素的影响,很难建立因果连接。例如,人的收入水平(结果)与受教育程度(干预)有很强关联。那么有可能是教育程度直接影响到收入(因果关系成立),但也可能是教育程度和收入水平其实没关系,但两者都取决于居住地点,家庭背景,个人努力程度等其他因素。所以,判断因果关系需要复杂而详细的数据分析。近年的诺贝尔经济奖,好几次触及因果性的问题。 一个常用的方法叫逻辑回归(logistic regression),近年来也广泛用于机器学习。其基本原理是通过统计分析估算各个自变量因素对结果的影响程度。这样,我们就可以把我们感兴趣的自变量(干预)的影响隔离出来,也就是近似得到它与结果之间的因果关系。逻辑回归的适用度很广,只要有充足的数据就行。但是它需要关于研究对象的特定知识,也就是要知道哪些自变量(也叫控制变量)是可能有影响的。如果漏掉了一个自变量,那么最后的结论就会出错。所以,这个方法也叫“基于模型的方法”(model-based approach),即需要对问题有个模型,知道哪些是输入(自变量)和输出(因变量)。2015年诺贝尔经济奖表彰的迪顿(Angus Deaton)就是在这方面做出了突出贡献。 除此之外,还有一种“基于设计的方法”(design-based approach)。它的要诀是把研究对象分为两组,称为干预组和控制组。我们可以认为其它已知或未知的因素对这两组的影响都是一样的,唯一的区别在于是否接受“干预”。这样,我们观察到的“结果”差别,就可以归因于“干预”了。 分组的办法有很多种。有时候我们能得到其它因素完全相同的组。如生物学和心理学中常常把孪生儿分组,认为他们的遗传因素是完全相同的。而更多情况下,我们采用随机分组的方法,以求得“统计意义上相同”的干预组和对照组。这是现代临床医学的标准方法,称为随机对照试验(randomized controlled trial, 简称RCT)。这个方法在经济学中也有应用。2019年的诺贝尔经济学奖,就是表彰这方面的开创性工作。这两种方法都是实验手段,也就是研究者对研究对象施加不同的干预。由于研究成本,学术伦理和其他因素的限制,这种方法也有其局限性。 另一种基于设计的方法并不真的进行分组,而是通过数据来辨别属于不同“组”的人。也就是说,研究者只是看收集的数据,不插手研究对象的处境。这种方法称为“自然实验”,也就是在自然的生活环境中抽提实验结果。2021年诺贝尔经济学奖表彰的三位经济学家卡德(David Card),安格里斯特(Joshua D. Angrist)和因本斯(Guido Imbens),就是自然实验方面的专家。自然实验的关键是通过已有数据来构造干预组和对照组,而那几位得奖者开创了好几种有关技术。 在有些情况下,干预组和对照组的条件并不相同。但是,我们可以比较它们随时间的变化来观察干预的效果。这种方法叫做双重差分(difference-in-differences,简称DID)。其中最著名的工作之一就是得奖者卡德1994年关于最低工资与就业率的研究。直觉上说,比较最低工资法实行前后的就业率就能看到它的影响了。但事情不是那么简单,因为不同时间点上有很多因素会影响就业率,如经济状况甚至天气等。所以卡德就比较了相邻的两个州:新泽西和宾夕法尼亚(宾州)。虽然两州的就业率并不相同,但我们可以假定所有其它因素对两个州的影响是一样的,除了新泽西在1992年提高了最低工资而宾州没有。数据显示,在此前后,宾州就业率稍有下降而新泽西却稍有上升。于是卡德得出结论:最低工资的提高没有影响就业。用同样的方法,在1990年卡德等考察了美国四个城市,其中的迈阿密在1980年间有大批古巴难民到达。通过比较在此前后各城市的就业数据,卡德发现大批移民的到达对于迈阿密的就业率和工资水平都没有负面影响。他们这些工作不但对公共政策有重要影响,也发展了新的经济学研究方法。 另一个“制造”干预组和对照组的方法是聚焦于干预的“门槛”附近的人群。因为“门槛”是人为设定的,我们可以认为门槛以上和以下一定区间内的人群实际上是没有区别的。但“门槛”的存在使得一组人受到干预而另一组没有。这种分析方法称为断点回归设计(regression discontinuity design,简称RDD)。安格里斯特在诺贝尔演讲中介绍了他早年一个有趣的工作,就是通过研究成绩稍高于或低于录取分数线附近的学生来评估重点高中(根据成绩录取学生的公立学校)对学生的影响。这个方法听起来简单,但有不少细节很有意思,以后还要谈到。 相比于这两种方法,“工具变量”(Instrumental variable,简称IV)的技术更加定量化。它的思路是这样的。如果能找到一个工具变量,它只影响到干预量而不直接影响结果,那么它与结果之间的相关就反映了干预与结果之间的因果关系。我们也可以把工具变量看成是调节干预的一个“旋钮”。它的不同值所对应的人群,在统计上其它因素都一样,而只有干预值不同。这样就构建了研究因果关系的干预组和对照组。(思考题:为何如此定义的“工具变量”不会带来“其他因素”的差别?) 因本斯在诺贝尔演讲中提到一个例子。他们想研究越战退伍军人的收入和其他人有何不同。直接比较参军者和不参军者的收入太粗糙了,因为这两个群体可能有影响收入的其它差别,如家庭背景,智力体力天赋等。所以他们找了个工具变量:征兵抽签。抽签结果决定了参军的概率,也就是与“干预”相关。但抽签是随机的,所以它与其他因素都无关,也不会直接影响收入。这样,研究抽签与收入的相关性,就抽提出了参军与收入之间的因果关系。 工具变量对干预的影响通常是有限的。例如抽签到的人不一定就参军,而没抽到的也有很多人自愿去参军了。如果我们要知道抽签到而且参军的人的情况,就需要做进一步的分析。安格里斯特和因本斯发展了另一个技术“局部平均干预效果”(local average treatment effects, LATE)来解决这个问题。这个技术考虑了干预组和实验组中真正接受干预的人数比例(在我们的例子中,就是抽签到和没抽签到的人群中真正参军的人数比例),以此来修正相关性分析得出的结果。这个技术也是2021年诺贝尔经济奖特别提到的贡献。LATE的修正公式直观上很容易理解,但其数学推导包括了若干假定。所以运用LATE就等于把那些假定摆到桌面上,改善了研究工作的透明度。 上面四个技术,就是2021年诺贝尔经济奖的主要内容。它们建立了基于设计的研究方法,即通过干预组和控制组的比较来确定和量化因果关系。这些技术直观上不难理解,但都有比较严格的数学推导和明确的假定。 前面说了,基于设计的研究方法与另一类基于模型的研究方法的不同之处,在于前者不需要知道所有影响结果的因素。通过建立合适的干预组和对照组,我们就自动排除了所有已知和未知的影响因素,而隔离出了干预与结果之间的因果关系。但这并非意味着我们不需要对问题有深入的了解。在上面说的四个技术中,找到双重差分的比较对象,识别门槛和相应的“附近”区域,选择工具参数,证实LATE的假定成立,这些都需要专门知识。例如在退伍士兵研究中,抽签结果真的与收入没有直接关系吗?是否有可能,参军抽签的结果影响到一个人对生活道路的期望和职业选择,从而影响到收入? 在安格里斯特的诺贝尔演说中提到了另一个例子。他讲到在研究重点高中作用时,怎样确定录取线上下这个“附近”区域的大小。他们通过其他数据的验证,证明在他们选择的学生群体中,录取线以上和以下的学生在六年级数学成绩上没有统计区别。也就是说,如果你进入了个选择区,那是否被录取就是全凭运气了。所以,我们可以认为干预组和对照组的唯一差别就在是否(随机地)被录取。可见,这类研究还是需要相当的专业知识。而那些得奖者也大多专注于某些领域。对于这类研究的结果,我们也需要审视它们是否反映了正确的专业知识。 自然实验,特别是基于设计的自然实验研究,常常是优美巧妙的。但是好的设计也是可遇而不可求,所以自然实验的机会是相当受限的。因此,人们常常过度推广研究的结论,用一个或少数几个案例来构筑广泛的结论。但是我们要明白,经济学中很多问题取决于尺度和具体情况。例如,前面说到提高最低工资不影响就业率的结果,常被倡导某些政策的人广泛引用。但我们要记住,那是关于一个特定地区和特定行业的研究,而且其中最低工资的提高在一定限度内。(卡德关于劳动经济学有一系列的研究,这也是2021年诺贝尔经济奖表彰他的主要内容。我们真要了解他的成果和适用范围,需要查看他的原始论文。)另一个例子是:那个重点高中的研究结果只限于接近录取线的那些人。对于远高于或远低于录取标准的就不见得适用。 随着近年来数据和数据处理能力的飞速增长,基于数据分析的实证经济学也越来越重要。据说目前经济学论文中有一半与因果分析有关。卡德的工作也表明,许多我们视为理所当然的结论,如提高工资会影响就业,移民涌入会抬升失业率等,都不一定经得起实践检验。所以,2021年诺贝尔经济奖表彰的这些工作,在今后仍然会展现其重大意义。
|