在學生時代,我最喜歡物理,因為它特別“乾淨”。幾個物理量通過方程和定律聯繫在一起,我們(至少在理論上)能把其中的因果關係說得一清二楚,而且這些又能被實驗明確地驗證。但是後來我慢慢了解到:這種“優美”的研究方式只適用於最簡單的系統:基本粒子,原子分子等。到了更大的系統如固體,即使物理學也必須加入唯象理論和各種近似才能搞定了。 到了生物和醫學,就更不“乾淨”了,因為一個生物現象是很多“因”共同作用的結果。要完整地表達其因果關係是不現實的。作為研究者,我們希望分離出其中一個“因”的作用,至少了解這件事的一個側面。由於其它“因”帶來的不確定性,我們不能肯定地說某個“因”一定導致某個“果”,而只能用概率來描述這個因果關係。 這種情況下一個通行的研究方法是分類評定回歸(Logistic Regression)。這個方法是通過收集事件樣本,從統計上分析各種原因對結論的影響。但這個方法假定了我們知道所有可能的原因而且能針對它們收集數據。如果有未包括在研究中的原因,這個方法就不成立了。前一陣爭論亞裔申請大學是否受歧視,其中常常被提到的一個證據就是同樣條件下亞裔學生入學需要的SAT成績比白人高140分,比黑人高450分。這兩個數字就是一個多變量回歸分析的研究結果(見博文:亞裔學子的大學門檻:統計證據一例,http://blog.creaders.net/u/1030/201106/88157.html,http://blog.sciencenet.cn/blog-309766-460297.html)。之所以我們能說“同樣條件下”,是因為那個研究包括了家庭社會地位,高中種類,高中班級排名,學術獎項等很多因素,從而得出結論說那個SAT錄取線的差別是因為族裔身份造成的。而一個常見的反對意見就是認為還有其它可能影響錄取的因素沒有被包括,如學生未來對母校捐款的可能性。(這裡我不評論這些說法是否合理,只是舉例說明分類評定回歸的研究辦法)。 對於影響因素眾多而且未知的現象,另一個行之有效的研究方法就是隨機對照試驗(randomized controlled trial,簡稱RCT)。這就是我們這篇文章的主題。上面說的分類評定回歸是一種數據收集和分析方法,而RCT是一種實驗方法。它把實驗對象隨機分成干預組和對照組。兩組除了要研究的因素不同以外其它都沒有區別。這樣,兩組結果之間的統計差別就可以歸因於那個要研究的因素,因為其他已知或未知的因素對兩組的影響是相同的。RCT現在被廣泛應用於醫學和生物學研究中。1962年,美國食品與藥物管理局(FDA)要求用RCT方法證明藥物的有效性。現在大家所說的“臨床研究”和“循證醫學”都是基於RCT方法的。最近關於治療“新冠”的特效藥討論中就涉及不少關於RCT的話題。回到上面的亞裔入學歧視例子上,如果要用RCT來檢驗是否有歧視,那最簡單的辦法就是把申請人隨機分為幾組,在申請時貼上不同的種族標籤,看錄取結果怎樣。當然這也是說得容易,細節中困難不少,至今沒有人做過。 2019年的諾貝爾經濟學獎頒發給三位美國經濟學家巴納吉(Abhijit Banerjee),迪弗洛(Esther Duflo)和克雷默(Michael Kremer),表彰他們對於RCT方法應用於發展經濟學的開創性貢獻。這三人是哈佛和MIT的教授,一直合作工作(其中前兩位還是師生和夫妻)。所以下面就一併介紹他們的工作,而不區別具體作者了。 雖然RCT在醫學界已經應用多年,但在經濟學的應用是得獎人在上世紀九十年代才開始在發展經濟學(研究發展中國家的經濟現象)領域中開始的。這使得發展經濟學的研究從以前的收集和分析數據轉移到“田野實驗(field experiments)”,也就是在人群中進行實驗來研究某種政策的效果。二十多年來,得獎者在非洲和印度,印度尼西亞等地進行了一系列研究,在教育,健康,金融和性別政治等領域取得了有重大影響的成果。在從事田野實驗的過程中,他們也與相關政府部門和非政府組織建立了廣泛的合作關係。他們在2003年創辦了“阿卜杜·拉提夫 ·詹米爾扶貧行動實驗室”(J-PAL),用RCT方法開發和推廣扶貧政策。J-PAL目前有近兩百位合作教授和上千名田野研究人員,在非洲,拉美,南亞等地區展開研究項目。到2018年,J-PAL的工作惠及世界上四億人口。 得獎者多年前做的一個影響深遠的工作,就是發現貧困會影響人的認知能力,使他們更注意短期利益,不願承擔風險,不願採用新技術等。他們發現,短期的財務資助會幫助窮人跳出這些認知陷阱,而得到長期的益處。這個看法與流行的“財務資助會讓窮人變懶”的觀念大相徑庭,而為扶貧提供了理論支持。無獨有偶,貧困和認知能力的關係近年來在美國也得到重視。楊安澤的競選政見很大程度上正是是基於此(見“楊安澤(Andrew Yang)和《對普通人的戰爭》”,http://blog.creaders.net/user_blog_diary.php?did=MzU4NTkx)。但這個認識是否來自於得獎人的工作,我不清楚。 從學術上說,把RCT移植到經濟學研究也有不少困難。這裡只能簡單討論幾個我認為最重要的貢獻。 醫學RCT中重要的一環就是“雙盲”,也就是受試者和操作人員都不知道誰是干預組誰是對照組。這就避免了相關人員有意或無意的干預而影響結果。但是這在經濟學上很難實施,因為沒有“安慰劑”。例如,如果你給學生提供一項額外幫助(如免費教科書),那學生和家庭有可能會因此減少他們其它的投入(如文具)。得獎者們通過小心設計實驗來減輕這個問題。他們把受試者的行為變化也列入觀察的指標,從而不但在一定程度上排除了這個干擾,而且還利用此機會觀察人的非理性行為,對行為經濟學做出了貢獻。 醫學上的RCT的目的是驗證或量化一個假定(如某種藥物對某種病症有效)。所以整個實驗流程是按預先設計嚴格執行的。但得獎人的經濟學研究卻不是這樣。他們也是基於某些理論來設計實驗,但允許在實驗過程中根據調整研究對象和方法。當研究結果顯示他們所測試的政策有缺陷時,他們可以修改政策並進一步測試。這樣一來,測試的過程也是開發創新的過程。其工作成果不光是經濟學上的結論,也包括行之有效的政策方案。這種遞推式的研究方法是他們的成果能取得巨大社會效果的重要原因。 經濟學RCT的另一個重大挑戰就是如何推廣結論。在醫學上,我們認為人的生理性質是普遍的。對於受試對象得出的結論也適用於同樣選擇標準下的其他人群。但是經濟學上卻不同。在一個國家或社區的實驗結果不一定適用與其它地方。而且小規模實驗和大規模實施的情況也可能全然不同。例如,關於在美國實行全民基本收入(universal basic income,簡稱UBI )的爭論中,支持者引用了很多實驗結果來證明UBI的益處,其中大部分是RCT方式的研究。但這些實驗要麼是在發展中國家,要麼規模和時間都很有限,在爭論中都沒有表現出說服力。得獎人針對推廣的問題也發展了一些新的方法。一個是擴大隨機選擇的範圍,例如在研究幫助就業的政策時,不僅隨機選擇實行政策的地區和行業,也隨機選擇每個行業中受助人的比例。另一個是在多個國家或地區進行同樣的實驗,來觀察這些不同人群中的共性和特性。如果一個政策被小規模實驗證明有效,他們在逐步擴大規模的同時也會繼續進行RCT實驗,不斷修正出現的問題。這樣系統嚴謹的方式使得他們倡導的很多政策取得了大規模的成功。目前還是有很多專家認為RCT的結論推廣問題沒有解決。但得獎人在這方面作出了重要的進展和貢獻。 除了工作的重大現實意義外,2020年諾貝爾經濟獎還有不少有趣的特點。得獎人中的迪弗洛是位“70後”,是至今諾貝爾經濟學獎最年輕的得主。她是另一位得獎人巴納吉的博士生和長期合作者,也是後者的妻子。他們倆是第六對同獲諾貝爾獎的夫婦,也是同獲經濟獎的第一對。在至今八十多位經濟獎得主中,迪弗洛是第二位女性,而巴納吉是第三位非白人。 我覺得更重要的,是三位得獎者都有移民背景。巴納吉和迪佛洛分別生於印度和法國,通過留學來到美國。另一位得獎者克雷默出生於美國,但他父母都是歐洲移民來的猶太人。也許正是這種移民背景讓他們具有國際視野,身為美國頂級大學的教授卻為幫助別國窮人而奔波。他們的成就也是移民對於美國貢獻的一個見證。 RCT方法道理上很容易被接受,目前在醫學上也被認為是黃金標準。似乎推廣到經濟等領域是順理成章的事。實際上,經濟學上用到RCT方法的也不光是發展經濟學。2017年諾貝爾經濟獎得主賽勒(Richard Thaler)寫過一本關於用行為經濟學幫助社會政策制定的書《助推》(Nudge: Improving Decisions About Health, Wealth, and Happiness, 2009) ,其中也介紹了好幾個RCT實驗。但另一方面,RCT只是很多研究方法中的一個。它有一定的適用範圍。而且具體的設計和評估中也有很多的講究。在這方面,經濟學業內的爭論也並未止息。所以並非RCT的結論就一定可靠,還是需要用科學的態度和方法去審視。不管怎樣,這三位得獎者的工作改變了發展經濟學的研究格局,也算是把自然科學的方法引入社會科學的一個里程碑。
|