在学生时代,我最喜欢物理,因为它特别“干净”。几个物理量通过方程和定律联系在一起,我们(至少在理论上)能把其中的因果关系说得一清二楚,而且这些又能被实验明确地验证。但是后来我慢慢了解到:这种“优美”的研究方式只适用于最简单的系统:基本粒子,原子分子等。到了更大的系统如固体,即使物理学也必须加入唯象理论和各种近似才能搞定了。 到了生物和医学,就更不“干净”了,因为一个生物现象是很多“因”共同作用的结果。要完整地表达其因果关系是不现实的。作为研究者,我们希望分离出其中一个“因”的作用,至少了解这件事的一个侧面。由于其它“因”带来的不确定性,我们不能肯定地说某个“因”一定导致某个“果”,而只能用概率来描述这个因果关系。 这种情况下一个通行的研究方法是分类评定回归(Logistic Regression)。这个方法是通过收集事件样本,从统计上分析各种原因对结论的影响。但这个方法假定了我们知道所有可能的原因而且能针对它们收集数据。如果有未包括在研究中的原因,这个方法就不成立了。前一阵争论亚裔申请大学是否受歧视,其中常常被提到的一个证据就是同样条件下亚裔学生入学需要的SAT成绩比白人高140分,比黑人高450分。这两个数字就是一个多变量回归分析的研究结果(见博文:亚裔学子的大学门槛:统计证据一例,http://blog.creaders.net/u/1030/201106/88157.html,http://blog.sciencenet.cn/blog-309766-460297.html)。之所以我们能说“同样条件下”,是因为那个研究包括了家庭社会地位,高中种类,高中班级排名,学术奖项等很多因素,从而得出结论说那个SAT录取线的差别是因为族裔身份造成的。而一个常见的反对意见就是认为还有其它可能影响录取的因素没有被包括,如学生未来对母校捐款的可能性。(这里我不评论这些说法是否合理,只是举例说明分类评定回归的研究办法)。 对于影响因素众多而且未知的现象,另一个行之有效的研究方法就是随机对照试验(randomized controlled trial,简称RCT)。这就是我们这篇文章的主题。上面说的分类评定回归是一种数据收集和分析方法,而RCT是一种实验方法。它把实验对象随机分成干预组和对照组。两组除了要研究的因素不同以外其它都没有区别。这样,两组结果之间的统计差别就可以归因于那个要研究的因素,因为其他已知或未知的因素对两组的影响是相同的。RCT现在被广泛应用于医学和生物学研究中。1962年,美国食品与药物管理局(FDA)要求用RCT方法证明药物的有效性。现在大家所说的“临床研究”和“循证医学”都是基于RCT方法的。最近关于治疗“新冠”的特效药讨论中就涉及不少关于RCT的话题。回到上面的亚裔入学歧视例子上,如果要用RCT来检验是否有歧视,那最简单的办法就是把申请人随机分为几组,在申请时贴上不同的种族标签,看录取结果怎样。当然这也是说得容易,细节中困难不少,至今没有人做过。 2019年的诺贝尔经济学奖颁发给三位美国经济学家巴纳吉(Abhijit Banerjee),迪弗洛(Esther Duflo)和克雷默(Michael Kremer),表彰他们对于RCT方法应用于发展经济学的开创性贡献。这三人是哈佛和MIT的教授,一直合作工作(其中前两位还是师生和夫妻)。所以下面就一并介绍他们的工作,而不区别具体作者了。 虽然RCT在医学界已经应用多年,但在经济学的应用是得奖人在上世纪九十年代才开始在发展经济学(研究发展中国家的经济现象)领域中开始的。这使得发展经济学的研究从以前的收集和分析数据转移到“田野实验(field experiments)”,也就是在人群中进行实验来研究某种政策的效果。二十多年来,得奖者在非洲和印度,印度尼西亚等地进行了一系列研究,在教育,健康,金融和性别政治等领域取得了有重大影响的成果。在从事田野实验的过程中,他们也与相关政府部门和非政府组织建立了广泛的合作关系。他们在2003年创办了“阿卜杜·拉提夫 ·詹米尔扶贫行动实验室”(J-PAL),用RCT方法开发和推广扶贫政策。J-PAL目前有近两百位合作教授和上千名田野研究人员,在非洲,拉美,南亚等地区展开研究项目。到2018年,J-PAL的工作惠及世界上四亿人口。 得奖者多年前做的一个影响深远的工作,就是发现贫困会影响人的认知能力,使他们更注意短期利益,不愿承担风险,不愿采用新技术等。他们发现,短期的财务资助会帮助穷人跳出这些认知陷阱,而得到长期的益处。这个看法与流行的“财务资助会让穷人变懒”的观念大相径庭,而为扶贫提供了理论支持。无独有偶,贫困和认知能力的关系近年来在美国也得到重视。杨安泽的竞选政见很大程度上正是是基于此(见“杨安泽(Andrew Yang)和《对普通人的战争》”,http://blog.creaders.net/user_blog_diary.php?did=MzU4NTkx)。但这个认识是否来自于得奖人的工作,我不清楚。 从学术上说,把RCT移植到经济学研究也有不少困难。这里只能简单讨论几个我认为最重要的贡献。 医学RCT中重要的一环就是“双盲”,也就是受试者和操作人员都不知道谁是干预组谁是对照组。这就避免了相关人员有意或无意的干预而影响结果。但是这在经济学上很难实施,因为没有“安慰剂”。例如,如果你给学生提供一项额外帮助(如免费教科书),那学生和家庭有可能会因此减少他们其它的投入(如文具)。得奖者们通过小心设计实验来减轻这个问题。他们把受试者的行为变化也列入观察的指标,从而不但在一定程度上排除了这个干扰,而且还利用此机会观察人的非理性行为,对行为经济学做出了贡献。 医学上的RCT的目的是验证或量化一个假定(如某种药物对某种病症有效)。所以整个实验流程是按预先设计严格执行的。但得奖人的经济学研究却不是这样。他们也是基于某些理论来设计实验,但允许在实验过程中根据调整研究对象和方法。当研究结果显示他们所测试的政策有缺陷时,他们可以修改政策并进一步测试。这样一来,测试的过程也是开发创新的过程。其工作成果不光是经济学上的结论,也包括行之有效的政策方案。这种递推式的研究方法是他们的成果能取得巨大社会效果的重要原因。 经济学RCT的另一个重大挑战就是如何推广结论。在医学上,我们认为人的生理性质是普遍的。对于受试对象得出的结论也适用于同样选择标准下的其他人群。但是经济学上却不同。在一个国家或社区的实验结果不一定适用与其它地方。而且小规模实验和大规模实施的情况也可能全然不同。例如,关于在美国实行全民基本收入(universal basic income,简称UBI )的争论中,支持者引用了很多实验结果来证明UBI的益处,其中大部分是RCT方式的研究。但这些实验要么是在发展中国家,要么规模和时间都很有限,在争论中都没有表现出说服力。得奖人针对推广的问题也发展了一些新的方法。一个是扩大随机选择的范围,例如在研究帮助就业的政策时,不仅随机选择实行政策的地区和行业,也随机选择每个行业中受助人的比例。另一个是在多个国家或地区进行同样的实验,来观察这些不同人群中的共性和特性。如果一个政策被小规模实验证明有效,他们在逐步扩大规模的同时也会继续进行RCT实验,不断修正出现的问题。这样系统严谨的方式使得他们倡导的很多政策取得了大规模的成功。目前还是有很多专家认为RCT的结论推广问题没有解决。但得奖人在这方面作出了重要的进展和贡献。 除了工作的重大现实意义外,2020年诺贝尔经济奖还有不少有趣的特点。得奖人中的迪弗洛是位“70后”,是至今诺贝尔经济学奖最年轻的得主。她是另一位得奖人巴纳吉的博士生和长期合作者,也是后者的妻子。他们俩是第六对同获诺贝尔奖的夫妇,也是同获经济奖的第一对。在至今八十多位经济奖得主中,迪弗洛是第二位女性,而巴纳吉是第三位非白人。 我觉得更重要的,是三位得奖者都有移民背景。巴纳吉和迪佛洛分别生于印度和法国,通过留学来到美国。另一位得奖者克雷默出生于美国,但他父母都是欧洲移民来的犹太人。也许正是这种移民背景让他们具有国际视野,身为美国顶级大学的教授却为帮助别国穷人而奔波。他们的成就也是移民对于美国贡献的一个见证。 RCT方法道理上很容易被接受,目前在医学上也被认为是黄金标准。似乎推广到经济等领域是顺理成章的事。实际上,经济学上用到RCT方法的也不光是发展经济学。2017年诺贝尔经济奖得主赛勒(Richard Thaler)写过一本关于用行为经济学帮助社会政策制定的书《助推》(Nudge: Improving Decisions About Health, Wealth, and Happiness, 2009) ,其中也介绍了好几个RCT实验。但另一方面,RCT只是很多研究方法中的一个。它有一定的适用范围。而且具体的设计和评估中也有很多的讲究。在这方面,经济学业内的争论也并未止息。所以并非RCT的结论就一定可靠,还是需要用科学的态度和方法去审视。不管怎样,这三位得奖者的工作改变了发展经济学的研究格局,也算是把自然科学的方法引入社会科学的一个里程碑。
|