華爾街的數學（16）蘋果和橘子-0+1-萬維博客-萬維讀者網（電腦版）

設萬維讀者為首頁

萬維讀者網 -- 全球華人的精神家園

廣告服務

聯繫我們

關於萬維

首　頁

新　聞

視　頻

博　客

論　壇

分類廣告

購　物




0+1
有感而發, 可多可少
		https://blog.creaders.net/u/2664/ > 複製 > 收藏本頁

網絡日誌正文

		華爾街的數學（16）蘋果和橘子	2010-02-19 17:47:18

英語中常說，“Compare Apple with Orange”，就是說兩者沒有可比性，根本就不應該去比。但是實際工作中，有時候我們需要比較兩件很難相比的事情。有一次有個部門需要比較兩組房貸的Prepayment（見《前言》中定義，與本篇內容無太大關係），兩組差別很大，根據分組的技術細節，他們認為應該基本沒有差別。只有兩個可能。一是兩組成分有差別，比如女的平均壽命就是比男的長。如果一組女的比例比另一組高的多，平均壽命當然就長了。另一種可能是我們認為分組的過程是無偏差的（No Bias），但實際上是有的，只是我們不理解或疏忽了。如果是後面一種，那就說明公司做生意的方式就要有很大改變。為避免涉及太多細節，我們還是用人口問題替代。

現在假定兩個相鄰地區A和B的死亡率有很大差別，我們想找出原因。為了驗證是否上面所說第一種可能，我們先分一下組。首先是男女分為兩組。按是否抽煙可分為三類，煙民，煙民家庭成員，不抽煙的。因為死亡率對年齡依賴較大，我們不妨分為四個組。這四個組怎麼劃分，沒有統一標準，這不是發射衛星，合理就行。總共是24個組。這兒研究對象不止是活着的，去世的也要按照生前情況歸入相應的組。

分了組還是沒解決問題，我們選幾個人數多的組，有的A高，有的B高。這還不算，A和B的總人口差得相當多，所以大部分對應的組人口也差很多。這是我最狼狽的一次，用老話說是一團亂麻，時髦點就是一地雞毛了。眼看大限快到了，謝天謝地，老闆說，那個會延期了。運氣還不錯，居然延了好幾次，所以前後做了一個多月。

最後的大限快到了，還算通融的老闆也有點不高興了，叫我就用傳統的分組比較“方法”多少做點東西，他在會上有個交待。我難得厚着臉皮又要了兩天，做好了“不成功則成仁”的思想準備，準備好最後兩天干通宵，弄點似是而非的東西讓他去交差。我先是想到一點小改進。AB人口不一樣，現在假定A較少，我們就乘個常數，使他們一樣，就象數學中常說的歸一化。這樣A區每個組的死亡率和總人口的死亡率都保持不變，但AB總人口總算一樣了。儘管這時會有1.3個人抽煙之類的怪事，但不影響我們討論死亡率。總人口一樣了，每個組的人數還是不一樣，有的組A人多，有的組B人多，如果全部一樣那就可直接比較了。病急亂投醫，我想，不妨把可比部分先比較一下吧。比如某一組A有100人，B有120人，我們可以算出兩者的死亡率，B就扔掉20人，然後只比100人。如此辦理，這一組B扔掉幾個，那一組A扔掉幾個，求大同存小異，把共同部分比一下，結果一舉成功。

如果組分的比較粗，共同部分就比較大，在房貸的實際例子中，按照最重要的因素利率分組，共同部分可達到90%多一些，兩者的Prepayment還有差距，但已經相當接近了。分的越細，扔掉的就越多，但如果兩組樣本確實一樣，結果就越接近。當初按最細的方法分組可把80%多的房貸進行直接比較，這時兩者幾乎已經完全一樣了。這個進公司後耗時最久的研究項目終於80%圓滿成功，剩下的20%已經不是蘋果橘子的問題了，這邊有橘子或蘋果，那邊什麼都沒有。反之亦然。

現在我用一個假想例子來說明如何運用這種技術。假設我們知道AB兩區10年前的人口年齡分布，死亡率一欄是10年裡的年平均死亡率（Annualized）。這是我從早年的精算數學課本上抄來的，也並非空穴來風。我們現在理想化，設定兩個區每組的死亡率完全一樣。A區總人口160萬，B區272萬。A區歸一後的總人口和B一樣，但如表所示，每組人數還是不一樣。AB欄為可比部分，257.4萬，占總人口94.6%。由於我們的簡化，A和B的總體可比死亡率是一模一樣的，在這兒是11.0‰。在實際工作中，A和B要分別計算。如果直接比較，我們發現A是13.8‰，B是10.7‰，A比B高了將近30%。完全一樣的死亡率，純粹由於人口分布不同，居然引起這麼大區別。我們可以逐行考察找原因。有了，80歲以上年齡組A的比例比B大，歸一後多了三千五。如果沒有這兒的歸一技術，連這點都很難直接看出。但是這也沒有解決問題，死亡率次高的71-80年齡組，A不是比B多了一萬六嗎？在我們的實際工作中，分得最細時大概總有幾千組，而且即使統計意義上相同的兩個樣本，觀察數字還是有差別的，分組用肉眼找原因絕對是死路一條。

年齡組死亡率 A區（歸一）A區 B區 AB

0-10 0.001532 120,000 204,000 250,000 204,000

11-30 0.001016 500,000 850,000 900,000 850,000

31-50 0.002860 400,000 680,000 700,000 680,000

51-60 0.009648 350,000 595,000 500,000 500,000

61-70 0.021919 100,000 170,000 200,000 170,000

71-80 0.048588 80,000 136,000 120,000 120,000

81+ 0.214950 50,000 85,000 50,000 50,000

總數 1,600,000 2,720,000 2,720,000 2,574,000

總死亡率 0.013774 0.013774 0.010693 0.010975

這個假想例子的95%當然非常令人信服，我工作的實際例子中80%應該也可以接受，70%呢？郵局辨認郵政編碼，硬件部分是光電感應，軟體部分就是模糊數學了。如果某一個字與他們的“標準”數字有80%相似，他們就認為可以接受。所以根據這經驗數字，80%或許是個比較合理的判斷標準。

我考慮過能否建立一種系統的方法，類似統計中的置信區間（Confidence Level）。我想這應該由以下幾個因素決定：歸一以後的可比人數，X%；這X%人口的平均誤差Y；AB兩組的各自的標準誤差，其中有一組的標準誤差在歸一過程中被放大，也必須要考慮進去。我這個半路出家搞統計的看來功力還不夠，歡迎有興趣的讀者深入研究下去，如果成功了請把這篇短文放進參考文獻，謝謝。


			文章評論

作者：3stones

留言時間：2013-09-07 10:41:09

You can use propensity score to do this: find the matched sample in these two groups.


	回復 \| 0 評論前需要先登錄或者註冊哦發表

作者：0+1

留言時間：2010-02-24 13:41:12

謝謝SAC,我無非用人口模型來類比房貸,不會真的去研究它.


	回復 \| 0 評論前需要先登錄或者註冊哦發表

作者：sac

留言時間：2010-02-24 08:08:11

Cox模型應該可以做的比生命表更好。試一試啊


	回復 \| 0 評論前需要先登錄或者註冊哦發表

作者：0+1

留言時間：2010-02-20 12:15:53

所謂標準人口（也稱Universe）就是不加任何篩選的總人口，保險公司的壽命表，就是從總人口中隨機抽取的也是很大的樣本，或許還分成男女，但是一個意思。然後具體定保費就要根據精算師從標準人口算出的標準保費作加減。而加減的標準，就是把一些特殊族群與標準人口加以比較，如何比較，當然是一門很大的學問。這小樣本，或許就是一個以前業務沒有設計的角落。
比如，中國人民保險公司以前在西藏沒有業務，現在要開展業務，我們想把西藏的死亡率與我們有一定經驗的青海加以比較。這就會是我這兒討論的問題。


	回復 \| 0 評論前需要先登錄或者註冊哦發表

作者：北京土話

留言時間：2010-02-20 11:05:44

什麼是標準人口?美國我不知道.中國人口普查都要計算壽命表.從沒聽說用什麼標準人口.壽命表不受人口年齡構成的影響.國與國之間人口壽命的比較都用它.不過你要找出相鄰地區死亡率差別很大的原因,這與統計方法似乎關係不大.你是談兩個問題1,如何比較兩地的死亡率.2,如果有差別,原因是什麼.你的方法我還得用心研究.可能還需要請教別人


	回復 \| 0 評論前需要先登錄或者註冊哦發表

作者：0+1

留言時間：2010-02-19 20:33:43

Life Table 適用於標準人口樣本，它只考慮年齡一個因素，其他因素之考慮某種平均。這兒兩者不一樣就是因為有年齡以外的因素。