英語中常說,“Compare Apple with Orange”,就是說兩者沒有可比性,根本就不應該去比。 但是實際工作中,有時候我們需要比較兩件很難相比的事情。有一次有個部門需要比較兩組房貸的Prepayment(見《前言》中定義,與本篇內容無太大關係),兩組差別很大,根據分組的技術細節,他們認為應該基本沒有差別。只有兩個可能。一是兩組成分有差別,比如女的平均壽命就是比男的長。如果一組女的比例比另一組高的多,平均壽命當然就長了。另一種可能是我們認為分組的過程是無偏差的(No Bias),但實際上是有的,只是我們不理解或疏忽了。如果是後面一種,那就說明公司做生意的方式就要有很大改變。為避免涉及太多細節,我們還是用人口問題替代。 現在假定兩個相鄰地區A和B的死亡率有很大差別,我們想找出原因。為了驗證是否上面所說第一種可能,我們先分一下組。首先是男女分為兩組。按是否抽煙可分為三類,煙民,煙民家庭成員,不抽煙的。因為死亡率對年齡依賴較大,我們不妨分為四個組。這四個組怎麼劃分,沒有統一標準,這不是發射衛星,合理就行。總共是24個組。這兒研究對象不止是活着的,去世的也要按照生前情況歸入相應的組。 分了組還是沒解決問題,我們選幾個人數多的組,有的A高,有的B高。這還不算,A和B的總人口差得相當多,所以大部分對應的組人口也差很多。這是我最狼狽的一次,用老話說是一團亂麻,時髦點就是一地雞毛了。眼看大限快到了,謝天謝地,老闆說,那個會延期了。運氣還不錯,居然延了好幾次,所以前後做了一個多月。 最後的大限快到了,還算通融的老闆也有點不高興了,叫我就用傳統的分組比較“方法”多少做點東西,他在會上有個交待。我難得厚着臉皮又要了兩天,做好了“不成功則成仁”的思想準備,準備好最後兩天干通宵,弄點似是而非的東西讓他去交差。我先是想到一點小改進。AB人口不一樣,現在假定A較少,我們就乘個常數,使他們一樣,就象數學中常說的歸一化。這樣A區每個組的死亡率和總人口的死亡率都保持不變,但AB總人口總算一樣了。儘管這時會有1.3個人抽煙之類的怪事,但不影響我們討論死亡率。總人口一樣了,每個組的人數還是不一樣,有的組A人多,有的組B人多,如果全部一樣那就可直接比較了。病急亂投醫,我想,不妨把可比部分先比較一下吧。比如某一組A有100人,B有120人,我們可以算出兩者的死亡率,B就扔掉20人,然後只比100人。如此辦理,這一組B扔掉幾個,那一組A扔掉幾個,求大同存小異,把共同部分比一下,結果一舉成功。 如果組分的比較粗,共同部分就比較大,在房貸的實際例子中,按照最重要的因素利率分組,共同部分可達到90%多一些,兩者的Prepayment還有差距,但已經相當接近了。分的越細,扔掉的就越多,但如果兩組樣本確實一樣,結果就越接近。當初按最細的方法分組可把80%多的房貸進行直接比較,這時兩者幾乎已經完全一樣了。這個進公司後耗時最久的研究項目終於80%圓滿成功,剩下的20%已經不是蘋果橘子的問題了,這邊有橘子或蘋果,那邊什麼都沒有。反之亦然。 現在我用一個假想例子來說明如何運用這種技術。假設我們知道AB兩區10年前的人口年齡分布,死亡率一欄是10年裡的年平均死亡率(Annualized)。這是我從早年的精算數學課本上抄來的,也並非空穴來風。我們現在理想化,設定兩個區每組的死亡率完全一樣。A區總人口160萬,B區272萬。A區歸一後的總人口和B一樣,但如表所示,每組人數還是不一樣。AB欄為可比部分,257.4萬,占總人口94.6%。由於我們的簡化,A和B的總體可比死亡率是一模一樣的,在這兒是11.0‰。在實際工作中,A和B要分別計算。如果直接比較,我們發現A是13.8‰,B是10.7‰,A比B高了將近30%。完全一樣的死亡率,純粹由於人口分布不同,居然引起這麼大區別。我們可以逐行考察找原因。有了,80歲以上年齡組A的比例比B大,歸一後多了三千五。如果沒有這兒的歸一技術,連這點都很難直接看出。但是這也沒有解決問題,死亡率次高的71-80年齡組,A不是比B多了一萬六嗎?在我們的實際工作中,分得最細時大概總有幾千組,而且即使統計意義上相同的兩個樣本,觀察數字還是有差別的,分組用肉眼找原因絕對是死路一條。 | 年齡組 | 死亡率 | A區 | (歸一)A區 | B區 | AB | | 0-10 | 0.001532 | 120,000 | 204,000 | 250,000 | 204,000 | | 11-30 | 0.001016 | 500,000 | 850,000 | 900,000 | 850,000 | | 31-50 | 0.002860 | 400,000 | 680,000 | 700,000 | 680,000 | | 51-60 | 0.009648 | 350,000 | 595,000 | 500,000 | 500,000 | | 61-70 | 0.021919 | 100,000 | 170,000 | 200,000 | 170,000 | | 71-80 | 0.048588 | 80,000 | 136,000 | 120,000 | 120,000 | | 81+ | 0.214950 | 50,000 | 85,000 | 50,000 | 50,000 | | 總數 | | 1,600,000 | 2,720,000 | 2,720,000 | 2,574,000 | | 總死亡率 | 0.013774 | 0.013774 | 0.010693 | 0.010975 | 這個假想例子的95%當然非常令人信服,我工作的實際例子中80%應該也可以接受,70%呢?郵局辨認郵政編碼,硬件部分是光電感應,軟體部分就是模糊數學了。如果某一個字與他們的“標準”數字有80%相似,他們就認為可以接受。所以根據這經驗數字,80%或許是個比較合理的判斷標準。 我考慮過能否建立一種系統的方法,類似統計中的置信區間(Confidence Level)。我想這應該由以下幾個因素決定:歸一以後的可比人數,X%;這X%人口的平均誤差Y;AB兩組的各自的標準誤差,其中有一組的標準誤差在歸一過程中被放大,也必須要考慮進去。我這個半路出家搞統計的看來功力還不夠,歡迎有興趣的讀者深入研究下去,如果成功了請把這篇短文放進參考文獻,謝謝。 |