設萬維讀者為首頁 萬維讀者網 -- 全球華人的精神家園 廣告服務 聯繫我們 關於萬維
 
首  頁 新  聞 視  頻 博  客 論  壇 分類廣告 購  物
搜索>> 發表日誌 控制面板 個人相冊 給我留言
幫助 退出
 
0+1  
有感而發, 可多可少  
網絡日誌正文
華爾街的數學(16)蘋果和橘子 2010-02-19 17:47:18

            英語中常說,“Compare Apple with Orange”,就是說兩者沒有可比性,根本就不應該去比。 但是實際工作中,有時候我們需要比較兩件很難相比的事情。有一次有個部門需要比較兩組房貸的Prepayment(見《前言》中定義,與本篇內容無太大關係),兩組差別很大,根據分組的技術細節,他們認為應該基本沒有差別。只有兩個可能。一是兩組成分有差別,比如女的平均壽命就是比男的長。如果一組女的比例比另一組高的多,平均壽命當然就長了。另一種可能是我們認為分組的過程是無偏差的(No Bias),但實際上是有的,只是我們不理解或疏忽了。如果是後面一種,那就說明公司做生意的方式就要有很大改變。為避免涉及太多細節,我們還是用人口問題替代。

 

            現在假定兩個相鄰地區AB的死亡率有很大差別,我們想找出原因。為了驗證是否上面所說第一種可能,我們先分一下組。首先是男女分為兩組。按是否抽煙可分為三類,煙民,煙民家庭成員,不抽煙的。因為死亡率對年齡依賴較大,我們不妨分為四個組。這四個組怎麼劃分,沒有統一標準,這不是發射衛星,合理就行。總共是24個組。這兒研究對象不止是活着的,去世的也要按照生前情況歸入相應的組。

 

            分了組還是沒解決問題,我們選幾個人數多的組,有的A高,有的B高。這還不算,AB的總人口差得相當多,所以大部分對應的組人口也差很多。這是我最狼狽的一次,用老話說是一團亂麻,時髦點就是一地雞毛了。眼看大限快到了,謝天謝地,老闆說,那個會延期了。運氣還不錯,居然延了好幾次,所以前後做了一個多月。

 

            最後的大限快到了,還算通融的老闆也有點不高興了,叫我就用傳統的分組比較“方法”多少做點東西,他在會上有個交待。我難得厚着臉皮又要了兩天,做好了“不成功則成仁”的思想準備,準備好最後兩天干通宵,弄點似是而非的東西讓他去交差。我先是想到一點小改進。AB人口不一樣,現在假定A較少,我們就乘個常數,使他們一樣,就象數學中常說的歸一化。這樣A區每個組的死亡率和總人口的死亡率都保持不變,但AB總人口總算一樣了。儘管這時會有1.3個人抽煙之類的怪事,但不影響我們討論死亡率。總人口一樣了,每個組的人數還是不一樣,有的組A人多,有的組B人多,如果全部一樣那就可直接比較了。病急亂投醫,我想,不妨把可比部分先比較一下吧。比如某一組A100人,B120人,我們可以算出兩者的死亡率,B就扔掉20人,然後只比100人。如此辦理,這一組B扔掉幾個,那一組A扔掉幾個,求大同存小異,把共同部分比一下,結果一舉成功。

 

            如果組分的比較粗,共同部分就比較大,在房貸的實際例子中,按照最重要的因素利率分組,共同部分可達到90%多一些,兩者的Prepayment還有差距,但已經相當接近了。分的越細,扔掉的就越多,但如果兩組樣本確實一樣,結果就越接近。當初按最細的方法分組可把80%多的房貸進行直接比較,這時兩者幾乎已經完全一樣了。這個進公司後耗時最久的研究項目終於80%圓滿成功,剩下的20%已經不是蘋果橘子的問題了,這邊有橘子或蘋果,那邊什麼都沒有。反之亦然。

 

            現在我用一個假想例子來說明如何運用這種技術。假設我們知道AB兩區10年前的人口年齡分布,死亡率一欄是10年裡的年平均死亡率(Annualized)。這是我從早年的精算數學課本上抄來的,也並非空穴來風。我們現在理想化,設定兩個區每組的死亡率完全一樣。A區總人口160萬,B272萬。A區歸一後的總人口和B一樣,但如表所示,每組人數還是不一樣。AB欄為可比部分,257.4萬,占總人口94.6%。由於我們的簡化,AB的總體可比死亡率是一模一樣的,在這兒是11.0‰。在實際工作中,AB要分別計算。如果直接比較,我們發現A13.8‰B10.7‰AB高了將近30%。完全一樣的死亡率,純粹由於人口分布不同,居然引起這麼大區別。我們可以逐行考察找原因。有了,80歲以上年齡組A的比例比B大,歸一後多了三千五。如果沒有這兒的歸一技術,連這點都很難直接看出。但是這也沒有解決問題,死亡率次高的71-80年齡組,A不是比B多了一萬六嗎?在我們的實際工作中,分得最細時大概總有幾千組,而且即使統計意義上相同的兩個樣本,觀察數字還是有差別的,分組用肉眼找原因絕對是死路一條。

 
年齡組           死亡率            A區     (歸一)A區            B區             AB
0-10 0.001532 120,000 204,000 250,000 204,000
11-30 0.001016 500,000 850,000 900,000 850,000
31-50 0.002860 400,000 680,000 700,000 680,000
51-60 0.009648 350,000 595,000 500,000 500,000
61-70 0.021919 100,000 170,000 200,000 170,000
71-80 0.048588 80,000 136,000 120,000 120,000
81+ 0.214950 50,000 85,000 50,000 50,000
總數 1,600,000 2,720,000 2,720,000 2,574,000
總死亡率 0.013774 0.013774 0.010693 0.010975

 

            這個假想例子的95%當然非常令人信服,我工作的實際例子中80%應該也可以接受,70%呢?郵局辨認郵政編碼,硬件部分是光電感應,軟體部分就是模糊數學了。如果某一個字與他們的“標準”數字有80%相似,他們就認為可以接受。所以根據這經驗數字,80%或許是個比較合理的判斷標準。

 

            我考慮過能否建立一種系統的方法,類似統計中的置信區間(Confidence Level)。我想這應該由以下幾個因素決定:歸一以後的可比人數,X%;這X%人口的平均誤差YAB兩組的各自的標準誤差,其中有一組的標準誤差在歸一過程中被放大,也必須要考慮進去。我這個半路出家搞統計的看來功力還不夠,歡迎有興趣的讀者深入研究下去,如果成功了請把這篇短文放進參考文獻,謝謝。

瀏覽(2417) (0) 評論(7)
發表評論
文章評論
作者:3stones 留言時間:2013-09-07 10:41:09
You can use propensity score to do this: find the matched sample in these two groups.
回復 | 0
作者:0+1 留言時間:2010-02-24 13:41:12
謝謝SAC,我無非用人口模型來類比房貸,不會真的去研究它.
回復 | 0
作者:sac 留言時間:2010-02-24 08:08:11
Cox模型應該可以做的比生命表更好。試一試啊
回復 | 0
作者:0+1 留言時間:2010-02-20 12:15:53
所謂標準人口(也稱Universe)就是不加任何篩選的總人口,保險公司的壽命表,就是從總人口中隨機抽取的也是很大的樣本,或許還分成男女,但是一個意思。然後具體定保費就要根據精算師從標準人口算出的標準保費作加減。而加減的標準,就是把一些特殊族群與標準人口加以比較,如何比較,當然是一門很大的學問。這小樣本,或許就是一個以前業務沒有設計的角落。
比如,中國人民保險公司以前在西藏沒有業務,現在要開展業務,我們想把西藏的死亡率與我們有一定經驗的青海加以比較。這就會是我這兒討論的問題。
回復 | 0
作者:北京土話 留言時間:2010-02-20 11:05:44
什麼是標準人口?美國我不知道.中國人口普查都要計算壽命表.從沒聽說用什麼標準人口.壽命表不受人口年齡構成的影響.國與國之間人口壽命的比較都用它.不過你要找出相鄰地區死亡率差別很大的原因,這與統計方法似乎關係不大.你是談兩個問題1,如何比較兩地的死亡率.2,如果有差別,原因是什麼.你的方法我還得用心研究.可能還需要請教別人
回復 | 0
作者:0+1 留言時間:2010-02-19 20:33:43
Life Table 適用於標準人口樣本,它只考慮年齡一個因素,其他因素之考慮某種平均。這兒兩者不一樣就是因為有年齡以外的因素。
回復 | 0
作者:北京土話 留言時間:2010-02-19 19:51:22
壽命表的方法不行嗎
回復 | 0
我的名片
0+1
註冊日期: 2009-08-01
訪問總量: 1,015,036 次
點擊查看我的個人資料
Calendar
最新發布
· 說假話,也要有底線
· 台灣公車上的溫馨一幕
· 我們的房產經紀
· 新西蘭和澳大利亞的動物保護
· 走火入魔的環保
· 我支持漲點價
· 中美兩國處理貪官的區別
分類目錄
【埃及-約旦】
· 蘇埃友誼萬歲!
· Made in China
· 古埃及 – 科學和偽科學之集大成
· 偽科學比沒有科學更可怕
· 埃及導遊賈寶玉
· 真真假假的阿部辛貝勒神廟
· 為什麼阿斯旺的酒店都在尼羅河東
【美國政治】
· 我支持漲點價
· 中美兩國處理貪官的區別
· 法制的讚歌
· 誰之罪
· 欲加之罪,何患無辭
· DEI 會促進生產力嗎?
· 自絕於選民!
· 自絕於選民!
· 如此保護
· 民主黨(?)縱容川普胡鬧
【2024奧運】
· 妄議奧運(二)
· 妄議奧運(一)
· 她又來了!
· 小國的奧運金牌
· 這個冠軍不孤獨
· 既生瑜,何生亮
· 我看着他打破世界記錄
· 祝賀美國終於“第一名”
· 二比二
· 全紅嬋和周洋
【難題】
· “難題”(3)-- 意外的驚喜(解答
· “難題”(3)-- 意外的驚喜
· “難題”(2) -- 雞還是蛋 (解答
· “難題”(2)-- 雞還是蛋
· “難題”(1)-- “簡單”的極限題(
· “難題”(1)-- “簡單”的極限題
【奇葩總統】
· 奇葩總統(1)- 股票總統
【最強大腦】
· 最強大腦 -- 色塊迷蹤(續)
· 最強大腦 -- 色塊迷蹤
· 最強大腦 -- 復活
· 最強大腦 -- 迷走點線
· 最強大腦 -- 珍稀足跡
· 最強大腦 -- 龜文古蹟
· 最強大腦 -- 知己不知彼
· 最強大腦 -- 數字謎盤
· 最強大腦 -- 入場式
【書摘】
· 《華爾街數學》書摘 -- 暗示的力
· 《華爾街數學》書摘 -- 飲水不忘
· 《華爾街數學》書摘 -- 書緣
· 華爾街數學 -- 我的數學人生
【橋牌“外交”】
· 橋牌“外交”-- H先生
· 橋牌“外交”-- C先生
· 橋牌“外交”-- R先生
· 橋牌“外交”-- 引子
【腦筋不用急轉彎 -- 續二】
· 24史
· 科學家的思考
· 朝四暮三
· 紙上談兵?
· 為什麼床鋪死都不公布稅表
· 質疑測量金字塔高度
· 如何用數學手段消除循環賽假球
· 如何儘快在大學新生中找出乙肝患
【我的大學 -- 續一】
· “提出者”和“參加者”
· 感慨亞吉博士
· 無法照抄的回家作業
· 太太太感謝您了!
· 飲水不忘掘井人
· 我的復旦夢
· 世界讀書日
· 暗示的力量(2)
· 蘇步青大師
· 久有凌雲志,重翻幾何書
【人間 -- 續二】
· 遲到
· 爺爺的爺爺
· 戰俘 – 一個沉重的話題
· 我自認為相當理智和客觀
· 一葉知秋
· 錦上添花和雪中送炭
· 異曲同工(三則)
· 社區的地球日
· 淡泊天涯
· 源於生活,高於生活
【腦筋不用急轉彎 -- 續一】
· 從統計學看國人的冷漠
· 一波四折
· 考考大家的想象力 (附“答案”)
· 毒酒和老鼠 -- 據 KM 說是 GS 的
【往事越千年 -- 續一】
· 說假話,也要有底線
· 諾獎季節說老楊
· 死信
· 崑崙關大捷和《血染的風采》
· 歌劇演員和歌唱演員
· 我的超級記性
· We are doing the impossible
· 上海人的體育輝煌
· 大浪淘沙
· 我為革命下廚房
【Alaska 之旅】
· Alaska 之旅(3)--前人栽樹,後
· Alaska 之旅(2)--一國兩制害死
· Alaska 之旅(1)-- 終於露餡
【莫談國是】
· 打死卞校長需要老毛聖旨嗎?
· 蠻不講理知“勁草”
· 重貼領導指示
· Hooter
· 我為“86萬”叫好
· 領導指示。。。
· 重要的一年
· 隨機抽查
· 三位知識分子的遺產
· 為公布100名紅色通緝人員叫好
【(不是我的)童年 -- 續一】
· 小朋友的高見
· 這次不扣錢
· 女兒的“科研成果”
· 一家三口數學競賽,我居然只拿了
· 活學活用
· Email from Santa
· “著名”泥塑藝術家
· 女兒的幽默
· 小狗不會告狀
· 美國校車補遺
【腦筋不用急轉彎】
· 基因裁剪者
· 氣死數學家
· 好人壞人
· 抽水馬桶史話 -- 山寨版
· 前幾天,我打了一幅臭牌
· 911 能減少貿易赤字?
【人間 -- 續一】
· 新西蘭和澳大利亞的動物保護
· 美國的大醫院 – Kaiser
· 橋牌中的運氣(續)
· 向桃園機場致敬!
· 好記性不如爛筆頭?
· 苦不能苦孩子,窮不能窮教育
· 酒文化
· 買車記
· 電影懷舊
· 燒菜“經驗”點滴
【無題】
· 神醫
· Waterpick
· 《藍色天夢》點評
· Obama Care 的報稅 – 尋求幫助
· 鋼琴碩士和博士
· 赫魯曉夫令人尊敬的一件往事
· 打橋牌和上廁所
· 聰明的車夫
· No School !
· 一段不錯的繞口令
【(不是我的)童年 -- 續一】
【科普講座 -- 續二】
· 走火入魔的環保
· 深不可測的貝加爾湖
· 一道普通物理題
· 美國的天價賠償
· 老調重彈 – 中國為何得不到諾貝
· 我的題都做不出,更何況奧數
· 感覺:人類大腦的專利
· 為什麼AI無法在橋牌戰勝人類?
· 假新聞的“諾貝爾獎”
· 統計樣本的笑話
【科普講座 -- 續一】
· 一次真正的忽悠 -- 雙周房貸
· 論“房貸忽悠”之忽悠
【科普講座】
· “不是數學家”的煩惱
· “永久”郵票
· 制度優勢
· 又聞蟬鳴
· 獨行俠張益唐 -- 轉載自戴世強教
· 做一回事後諸葛亮
· 半路上殺出個程咬金
· 考試和做研究(4) 遲到創造了歷
· 考試和做研究(3)橋牌博士論文
· 考試和做研究(2)
【華爾街的數學】
· 《華爾街數學》出版以後。。。
· 華爾街的數學(結束篇) 光輝的
· 華爾街的數學(19) 鍛羽而歸
· 華爾街的數學(18) 什錦拼盤
· 華爾街的數學(17) 橘子和蘋果
· 華爾街的數學(16)蘋果和橘子
· 華爾街的數學(15)“標準”手冊
· 華爾街的數學(14)“塗改”數據
· 華爾街的數學(13)假“公”濟私
· 華爾街的數學(12) 第三者的模
【街談巷議】
· 我見過廢話,但沒見過這樣的廢話
· 複姓
· 林彪不見了
· 長壽之國 -- 美國!
· 太太的高見
· 高手在民間!
· 廣州地鐵的鬧劇
· 下有對策,上無政策?
· 拼死吃河豚
· 商人的智慧
【飲食文化】
· 菜盲說米其林
· 小籠包史話
· 母親的八寶辣醬
· 倚老賣老
· 搭便車
· 江浙點心和統一大業
· 糖藕 (非食譜)
· 蹄筋(非食譜)
【我的大學】
· ChatGPT 和 Deep Seek 都錯了!
· 我和世界難題同齡
· 暗示的力量
· 三強韓趙魏,九章勾股弦
· 慘烈的考試
· 重刑監獄犯人的數學難題
· 魚骨頭的故事
· 數學也有假冒偽劣
· 無名小卒和Nash大師的一段“交往”
· 別開生面的面試
【人間】
· 台灣公車上的溫馨一幕
· 我們的房產經紀
· 台灣健保萬歲!
· 當書中出現錯誤
· 你想不到的義工
· 丁惠民先生千古!
· 卡特總統生日快樂!
· 幽默的老闆
· 買車記
· 個人自掃鄰家雪
【(不是我的)童年】
· 女兒“學”元素周期表
· 一鳴驚人
· 布穀鳥又叫了
· 誰是老闆?
· Potty 交響曲
· "重賞"之下, 必有&quo
【往事越千年】
· 馬年說馬季
· 班門弄斧
· 瑪德琳餅乾的故事
· 蔣經國的偉大
· 版權所有!!!
· 一身真偽有誰知
· 太湖美
· 人間自有真情在
· 蔣介石為胡適寫的輓聯
· 懷念胡耀邦
存檔目錄
2026-04-11 - 2026-04-17
2026-03-21 - 2026-03-21
2026-02-16 - 2026-02-26
2026-01-08 - 2026-01-17
2025-12-02 - 2025-12-11
2025-11-09 - 2025-11-09
2025-10-01 - 2025-10-27
2025-09-10 - 2025-09-10
2025-08-17 - 2025-08-17
2025-07-07 - 2025-07-23
2025-06-16 - 2025-06-22
2025-04-02 - 2025-04-25
2025-03-01 - 2025-03-30
2025-02-08 - 2025-02-17
2025-01-09 - 2025-01-09
2024-12-04 - 2024-12-31
2024-11-02 - 2024-11-29
2024-10-01 - 2024-10-31
2024-09-02 - 2024-09-26
2024-08-01 - 2024-08-31
2024-07-17 - 2024-07-29
2024-06-30 - 2024-06-30
2024-05-11 - 2024-05-30
2024-04-13 - 2024-04-17
2024-03-08 - 2024-03-08
2024-02-05 - 2024-02-11
2023-11-09 - 2023-11-09
2023-10-04 - 2023-10-18
2023-08-06 - 2023-08-06
2023-07-01 - 2023-07-28
2023-06-27 - 2023-06-27
2023-05-01 - 2023-05-21
2023-04-09 - 2023-04-23
2023-01-09 - 2023-01-22
2022-12-17 - 2022-12-17
2022-11-09 - 2022-11-19
2022-10-16 - 2022-10-21
2022-09-01 - 2022-09-10
2022-07-14 - 2022-07-25
2022-03-29 - 2022-03-29
2021-12-27 - 2021-12-27
2021-10-30 - 2021-10-30
2021-08-10 - 2021-08-10
2021-07-23 - 2021-07-23
2021-06-07 - 2021-06-28
2021-04-05 - 2021-04-05
2021-03-05 - 2021-03-10
2020-12-03 - 2020-12-30
2020-11-01 - 2020-11-26
2020-10-05 - 2020-10-24
2020-09-03 - 2020-09-20
2020-08-14 - 2020-08-31
2020-07-05 - 2020-07-24
2020-06-08 - 2020-06-08
2020-05-13 - 2020-05-27
2020-04-02 - 2020-04-30
2020-03-05 - 2020-03-26
2020-02-23 - 2020-02-23
2019-12-31 - 2019-12-31
2019-11-11 - 2019-11-24
2019-10-14 - 2019-10-18
2019-09-13 - 2019-09-24
2019-06-10 - 2019-06-10
2019-05-28 - 2019-05-28
2019-04-03 - 2019-04-28
2019-03-01 - 2019-03-14
2019-02-08 - 2019-02-23
2019-01-22 - 2019-01-28
2018-11-06 - 2018-11-08
2018-10-21 - 2018-10-21
2018-09-04 - 2018-09-28
2016-08-11 - 2016-08-11
2015-11-08 - 2015-11-22
2015-09-05 - 2015-09-27
2015-07-26 - 2015-07-27
2015-06-14 - 2015-06-14
2015-05-25 - 2015-05-30
2015-04-11 - 2015-04-11
2015-03-01 - 2015-03-02
2015-02-28 - 2015-02-28
2014-05-10 - 2014-05-10
2014-04-20 - 2014-04-20
2014-02-01 - 2014-02-22
2013-11-23 - 2013-11-23
2013-10-13 - 2013-10-19
2013-09-06 - 2013-09-14
2013-08-11 - 2013-08-31
2013-07-13 - 2013-07-23
2013-06-09 - 2013-06-09
2013-04-17 - 2013-04-21
2013-03-02 - 2013-03-02
2013-02-09 - 2013-02-23
2012-12-01 - 2012-12-29
2012-11-19 - 2012-11-28
2012-10-21 - 2012-10-21
2012-09-21 - 2012-09-21
2012-08-01 - 2012-08-03
2012-04-14 - 2012-04-14
2012-03-05 - 2012-03-05
2012-02-25 - 2012-02-26
2012-01-14 - 2012-01-28
2011-12-27 - 2011-12-27
2011-11-06 - 2011-11-20
2011-10-21 - 2011-10-29
2011-09-26 - 2011-09-26
2011-08-25 - 2011-08-27
2011-07-31 - 2011-07-31
2011-05-21 - 2011-05-21
2011-04-09 - 2011-04-21
2011-03-12 - 2011-03-12
2011-01-22 - 2011-01-31
2010-11-01 - 2010-11-10
2010-10-09 - 2010-10-12
2010-09-26 - 2010-09-30
2010-08-06 - 2010-08-28
2010-07-12 - 2010-07-25
2010-06-05 - 2010-06-19
2010-05-01 - 2010-05-30
2010-04-02 - 2010-04-24
2010-03-05 - 2010-03-26
2010-02-05 - 2010-02-26
2010-01-05 - 2010-01-27
2009-12-04 - 2009-12-29
2009-11-06 - 2009-11-27
2009-10-02 - 2009-10-30
2009-09-04 - 2009-09-25
2009-08-01 - 2009-08-30
 
關於本站 | 廣告服務 | 聯繫我們 | 招聘信息 | 網站導航 | 隱私保護
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.