有一次,我接到任務,要給客戶建立一個評分制度。怎麼打分,要我自己去定。第二天早晨,我告訴老闆,我做過的一個東西好像很接近,基本原理應該是一樣的。於是我從PC中打開一份文件,這個文件存在一個叫Research的文件夾。大部分人都是按項目分檔的,所以老闆對這個Research很有興趣,問裡面是什麼。我告訴他,我的Research定義是書上找不到的方法,並非每個人都能做出來的。他覺得這太苛刻了,我說我可是發表過15篇論文的人。這個數字在學校研究所不算什麼,在華爾街據我所知算是很響亮了。 華爾街的大部分工作,實際上是不夠格稱為研究的,至少不能稱為學術研究。按照我的定義,這兒只有第二篇《學術官司》和第六篇《七步成詩》勉強夠格,也只能稱為是華爾街水平的學術研究。第五篇《平均場近似》看上去很高深,實際上沒有新的東西,只是正確地運用了前人的成果。這一篇個人認為是夠得上學校研究所檔次的,但在那個檔次,也就一般水平而已。 上面提到的那個項目,可以略加簡化後,等價地用人口問題描述。假定我們要研究美國90年代的平均死亡率,要求包括90年代出生的以及移民。如果沒有後面兩項,《四兩撥千斤》中已有方法介紹。實際上如果沒有這兩項,根本就沒有資格號稱千斤,而現在已遠不止千斤了。怎樣定義才能最大程度地準確反映實際情況,絕對不是一個容易的問題,這個問題可以看作是封閉空間人口平均死亡率的自然延伸,所以一旦新增人口為零時,它必須能收斂到《四兩撥千斤》中的公式。下面的表格中給出了4個例子(A-D)及5種方法,最後一個方法是我發明的。在每個例子中,我都假定老同志為5,000,每年20人離開,10年中加入2,000新同志,到第10年底共200人離開,但是加入和離開的時間每個例子是不一樣的。為簡單起見,可以假設新人口都是1月1日加入,離開的不管是1月1日還是12月31日都認為是同一年。 四個例子如下: (A)2,000人都第一年加入,200人也全第一年離開。 (B)2,000人都最後一年加入,200人也全同年離開。 (C)2,000人都第6年加入,5年內每年離開40人。 (D)2,000人都第6年加入,200人全部第10年離開。 為方便討論,我先把結果給出,然後討論方法。 | 方法 / 例子 | A | B | C | D | | (1) | 5.87 ‰ | 5.87 ‰ | 5.87 ‰ | 5.87 ‰ | | (2) | 5.87 ‰ | 6.92 ‰ | 6.66 ‰ | 6.45 ‰ | | (3) | 5.83 ‰ | 6.89 ‰ | 6.66 ‰ | 6.41 ‰ | | (4) | 4.07‰ | 4.07 ‰ | 4.07 ‰ | 4.07 ‰ | | (5) | 5.87 ‰ | 7.96 ‰ | 6.85‰ | 6.85‰ | 先介紹我的方法(5)。決定存活率r的數學表達式為 ∑ i Mi rN-i+1 = M 求和從1到N。Mi為第i年初加入的人口。M為第N年底還健在的人數。不管是哪一年加入的,人口數目都按照同樣的存活率r遞減,只是遞減幾次與哪一年加入有關。第1年的遞減N次,即到N年底還有M1 rN。第2年為M2 rN-1。最後一年加入的只減少很少一點,還剩MN r。從字面上理解,平均就是大家一樣,這定義也算是符合了,大家的存活率一樣,意味着死亡率也一樣。當然到N年底所剩百分比與加入的年份有關,這也是可以理解的,我們下面還要解釋。 其餘四種方法如下 (1) 以10年中所有進入過的人數為分母,離開的人數為分子。然後開N次方。 (2) 把每年的存活率算出,作幾何平均。 (3) 把每年的存活率算出,作算術平均。 (4) 不管新進入人口,用《四兩撥千斤》的方法算。 封閉空間的定義,看上去簡單,其實暗含着許多道理。因為封閉空間的定義是大家都使用的,所以任何延伸出來的定義必須與它符合。首先我們注意到舊方法是新方法的特例,即M1 ≠ 0 而其他都是0。舊方法中,在同一時間間隔內,死亡人數越多,存活率就越低,新方法顯然也滿足,實際上其他(1)-(4)也都滿足這一點,否則就要鬧笑話了。 在封閉空間中,如果初始人數和離開總人數不變,經歷的年份越多,死亡率就越低。這也很好理解。中國小煤礦出事,如果10年10次,或許沒人大驚小怪。但如果一年好幾次,溫總理就只好掉眼淚了。在例子A-D中,這一點只對新進入的有影響。因為新人口離開200是每個例子一樣的,我們就要看總新人口的平均經歷時間。例A的平均經歷時間顯然最長,所以死亡率應該最低。這一點在(2)(3)(5)中反映出來了。根據定義可知道,(1)(4)無法反映這一點。(1)和(4)儘管並非無中生有,但顯然不合理,下面就不再討論了。 在封閉空間中,進入時間決定了平均經歷時間,從而對死亡率會有影響。但何時離開對死亡率是沒有影響的,這從《四兩撥千斤》的最後一個公式很容易看出, r = (FN/F0)1/N。它只取決於最終人數FN。這點不是很好理解,人人都希望長壽,好死不如賴活着,第1年離去和第10年離去怎麼能一樣呢,如果一樣安樂死不早就實施了。但這確實是這個普遍使用的方法所隱含的,而且它也有其合理的成分。美國士兵在伊拉克的平均死亡率,是由總的投入兵力,戰爭持續時間,以及死亡人數(5,000)決定的,不管是贊成還是反對這場戰爭的,是不會去探討這5,000將士是哪一年死的,總不見得死得早就是不該打,死在最後幾年這場戰爭就打對了。C和D就是為這點設計的。(2)和(3)顯然認為晚死比早死好(在N年內死的前提下),而(5)則和原方法一致。話說回來,我們是研究房貸時碰到這問題的,一間房子被銀行拍賣了,假如房價不變,早賣和晚賣對投資人來說確實是一回事。 A實際上等價於7,000初始人口的封閉空間。所以合理的方法應該收斂到《四兩撥千斤》的結果。(2)和(5)是滿足的,(1)和(4)總體表現很差,但根據定義可知,這點倒是滿足的。總體表現不錯的(3)卻無法滿足這一點。 綜上所述,(5)得冠軍確實是理所當然,眾望所歸。許多投資人的數學水平很有限,你說平均XX率,他問你什麼的平均,(1)-(4)你是講不出的,只能把數學公式扔給他們自己去理解。(5)儘管也不簡單,但至少是講得清楚的。但(5)也是由缺點的,就是使用了迭代,花時多些。所以如果不是要求很高的研究,(2)和(3)也是經常使用的。據我所知,(2)使用得相當普遍。但如果是要求較高的研究,象人口普查,財務報表,或FDA批准新藥,(5)無疑是最佳人選。 |