设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
0+1  
有感而发, 可多可少  
网络日志正文
华尔街的数学(16)苹果和橘子 2010-02-19 17:47:18

            英语中常说,“Compare Apple with Orange”,就是说两者没有可比性,根本就不应该去比。 但是实际工作中,有时候我们需要比较两件很难相比的事情。有一次有个部门需要比较两组房贷的Prepayment(见《前言》中定义,与本篇内容无太大关系),两组差别很大,根据分组的技术细节,他们认为应该基本没有差别。只有两个可能。一是两组成分有差别,比如女的平均寿命就是比男的长。如果一组女的比例比另一组高的多,平均寿命当然就长了。另一种可能是我们认为分组的过程是无偏差的(No Bias),但实际上是有的,只是我们不理解或疏忽了。如果是后面一种,那就说明公司做生意的方式就要有很大改变。为避免涉及太多细节,我们还是用人口问题替代。

 

            现在假定两个相邻地区AB的死亡率有很大差别,我们想找出原因。为了验证是否上面所说第一种可能,我们先分一下组。首先是男女分为两组。按是否抽烟可分为三类,烟民,烟民家庭成员,不抽烟的。因为死亡率对年龄依赖较大,我们不妨分为四个组。这四个组怎么划分,没有统一标准,这不是发射卫星,合理就行。总共是24个组。这儿研究对象不止是活着的,去世的也要按照生前情况归入相应的组。

 

            分了组还是没解决问题,我们选几个人数多的组,有的A高,有的B高。这还不算,AB的总人口差得相当多,所以大部分对应的组人口也差很多。这是我最狼狈的一次,用老话说是一团乱麻,时髦点就是一地鸡毛了。眼看大限快到了,谢天谢地,老板说,那个会延期了。运气还不错,居然延了好几次,所以前后做了一个多月。

 

            最后的大限快到了,还算通融的老板也有点不高兴了,叫我就用传统的分组比较“方法”多少做点东西,他在会上有个交待。我难得厚着脸皮又要了两天,做好了“不成功则成仁”的思想准备,准备好最后两天干通宵,弄点似是而非的东西让他去交差。我先是想到一点小改进。AB人口不一样,现在假定A较少,我们就乘个常数,使他们一样,就象数学中常说的归一化。这样A区每个组的死亡率和总人口的死亡率都保持不变,但AB总人口总算一样了。尽管这时会有1.3个人抽烟之类的怪事,但不影响我们讨论死亡率。总人口一样了,每个组的人数还是不一样,有的组A人多,有的组B人多,如果全部一样那就可直接比较了。病急乱投医,我想,不妨把可比部分先比较一下吧。比如某一组A100人,B120人,我们可以算出两者的死亡率,B就扔掉20人,然后只比100人。如此办理,这一组B扔掉几个,那一组A扔掉几个,求大同存小异,把共同部分比一下,结果一举成功。

 

            如果组分的比较粗,共同部分就比较大,在房贷的实际例子中,按照最重要的因素利率分组,共同部分可达到90%多一些,两者的Prepayment还有差距,但已经相当接近了。分的越细,扔掉的就越多,但如果两组样本确实一样,结果就越接近。当初按最细的方法分组可把80%多的房贷进行直接比较,这时两者几乎已经完全一样了。这个进公司后耗时最久的研究项目终于80%圆满成功,剩下的20%已经不是苹果橘子的问题了,这边有橘子或苹果,那边什么都没有。反之亦然。

 

            现在我用一个假想例子来说明如何运用这种技术。假设我们知道AB两区10年前的人口年龄分布,死亡率一栏是10年里的年平均死亡率(Annualized)。这是我从早年的精算数学课本上抄来的,也并非空穴来风。我们现在理想化,设定两个区每组的死亡率完全一样。A区总人口160万,B272万。A区归一后的总人口和B一样,但如表所示,每组人数还是不一样。AB栏为可比部分,257.4万,占总人口94.6%。由于我们的简化,AB的总体可比死亡率是一模一样的,在这儿是11.0‰。在实际工作中,AB要分别计算。如果直接比较,我们发现A13.8‰B10.7‰AB高了将近30%。完全一样的死亡率,纯粹由于人口分布不同,居然引起这么大区别。我们可以逐行考察找原因。有了,80岁以上年龄组A的比例比B大,归一后多了三千五。如果没有这儿的归一技术,连这点都很难直接看出。但是这也没有解决问题,死亡率次高的71-80年龄组,A不是比B多了一万六吗?在我们的实际工作中,分得最细时大概总有几千组,而且即使统计意义上相同的两个样本,观察数字还是有差别的,分组用肉眼找原因绝对是死路一条。

 
年龄组           死亡率            A区     (归一)A区            B区             AB
0-10 0.001532 120,000 204,000 250,000 204,000
11-30 0.001016 500,000 850,000 900,000 850,000
31-50 0.002860 400,000 680,000 700,000 680,000
51-60 0.009648 350,000 595,000 500,000 500,000
61-70 0.021919 100,000 170,000 200,000 170,000
71-80 0.048588 80,000 136,000 120,000 120,000
81+ 0.214950 50,000 85,000 50,000 50,000
总数 1,600,000 2,720,000 2,720,000 2,574,000
总死亡率 0.013774 0.013774 0.010693 0.010975

 

            这个假想例子的95%当然非常令人信服,我工作的实际例子中80%应该也可以接受,70%呢?邮局辨认邮政编码,硬件部分是光电感应,软体部分就是模糊数学了。如果某一个字与他们的“标准”数字有80%相似,他们就认为可以接受。所以根据这经验数字,80%或许是个比较合理的判断标准。

 

            我考虑过能否建立一种系统的方法,类似统计中的置信区间(Confidence Level)。我想这应该由以下几个因素决定:归一以后的可比人数,X%;这X%人口的平均误差YAB两组的各自的标准误差,其中有一组的标准误差在归一过程中被放大,也必须要考虑进去。我这个半路出家搞统计的看来功力还不够,欢迎有兴趣的读者深入研究下去,如果成功了请把这篇短文放进参考文献,谢谢。

浏览(2118) (0) 评论(7)
发表评论
文章评论
作者:3stones 留言时间:2013-09-07 10:41:09
You can use propensity score to do this: find the matched sample in these two groups.
回复 | 0
作者:0+1 留言时间:2010-02-24 13:41:12
谢谢SAC,我无非用人口模型来类比房贷,不会真的去研究它.
回复 | 0
作者:sac 留言时间:2010-02-24 08:08:11
Cox模型应该可以做的比生命表更好。试一试啊
回复 | 0
作者:0+1 留言时间:2010-02-20 12:15:53
所谓标准人口(也称Universe)就是不加任何筛选的总人口,保险公司的寿命表,就是从总人口中随机抽取的也是很大的样本,或许还分成男女,但是一个意思。然后具体定保费就要根据精算师从标准人口算出的标准保费作加减。而加减的标准,就是把一些特殊族群与标准人口加以比较,如何比较,当然是一门很大的学问。这小样本,或许就是一个以前业务没有设计的角落。
比如,中国人民保险公司以前在西藏没有业务,现在要开展业务,我们想把西藏的死亡率与我们有一定经验的青海加以比较。这就会是我这儿讨论的问题。
回复 | 0
作者:北京土话 留言时间:2010-02-20 11:05:44
什么是标准人口?美国我不知道.中国人口普查都要计算寿命表.从没听说用什么标准人口.寿命表不受人口年龄构成的影响.国与国之间人口寿命的比较都用它.不过你要找出相邻地区死亡率差别很大的原因,这与统计方法似乎关系不大.你是谈两个问题1,如何比较两地的死亡率.2,如果有差别,原因是什么.你的方法我还得用心研究.可能还需要请教别人
回复 | 0
作者:0+1 留言时间:2010-02-19 20:33:43
Life Table 适用于标准人口样本,它只考虑年龄一个因素,其他因素之考虑某种平均。这儿两者不一样就是因为有年龄以外的因素。
回复 | 0
作者:北京土话 留言时间:2010-02-19 19:51:22
寿命表的方法不行吗
回复 | 0
我的名片
0+1
注册日期: 2009-08-01
访问总量: 781,302 次
点击查看我的个人资料
Calendar
最新发布
· 你想不到的义工
· Made in China
· 活该!
· 古埃及 – 科学和伪科学之集大成
· 伪科学比没有科学更可怕
· 埃及导游贾宝玉
· 真真假假的阿部辛贝勒神庙
分类目录
【埃及-约旦】
· Made in China
· 古埃及 – 科学和伪科学之集大成
· 伪科学比没有科学更可怕
· 埃及导游贾宝玉
· 真真假假的阿部辛贝勒神庙
· 为什么阿斯旺的酒店都在尼罗河东
【美国政治】
· 活该!
· 都不是好东西!
· 大厦将倾,独木能支
· 封口费造假帐合算吗?
· Hogan 州长
· “好东西”?
· 另类的清廉
· 另类的贪腐
· 都不是好东西
【2024奥运】
· 妄议奥运(二)
· 妄议奥运(一)
· 她又来了!
· 小国的奥运金牌
· 这个冠军不孤独
· 既生瑜,何生亮
· 我看着他打破世界记录
· 祝贺美国终于“第一名”
· 二比二
· 全红婵和周洋
【难题】
· “难题”(3)-- 意外的惊喜(解答
· “难题”(3)-- 意外的惊喜
· “难题”(2) -- 鸡还是蛋 (解答
· “难题”(2)-- 鸡还是蛋
· “难题”(1)-- “简单”的极限题(
· “难题”(1)-- “简单”的极限题
【奇葩总统】
· 奇葩总统(1)- 股票总统
【最强大脑】
· 最强大脑 -- 色块迷踪(续)
· 最强大脑 -- 色块迷踪
· 最强大脑 -- 复活
· 最强大脑 -- 迷走点线
· 最强大脑 -- 珍稀足迹
· 最强大脑 -- 龟文古迹
· 最强大脑 -- 知己不知彼
· 最强大脑 -- 数字谜盘
· 最强大脑 -- 入场式
【书摘】
· 《华尔街数学》书摘 -- 暗示的力
· 《华尔街数学》书摘 -- 饮水不忘
· 《华尔街数学》书摘 -- 书缘
· 华尔街数学 -- 我的数学人生
【桥牌“外交”】
· 桥牌“外交”-- H先生
· 桥牌“外交”-- C先生
· 桥牌“外交”-- R先生
· 桥牌“外交”-- 引子
【脑筋不用急转弯 -- 续二】
· 24史
· 科学家的思考
· 朝四暮三
· 纸上谈兵?
· 为什么床铺死都不公布税表
· 质疑测量金字塔高度
· 如何用数学手段消除循环赛假球
· 如何尽快在大学新生中找出乙肝患
【我的大学 -- 续一】
· 太太太感谢您了!
· 饮水不忘掘井人
· 我的复旦梦
· 世界读书日
· 暗示的力量(2)
· 苏步青大师
· 久有凌云志,重翻几何书
· 人名不译
· 生成函数 -- 杀牛的鸡刀
· 欧拉定理的证明
【人间 -- 续二】
· 我自认为相当理智和客观
· 一叶知秋
· 锦上添花和雪中送炭
· 异曲同工(三则)
· 社区的地球日
· 淡泊天涯
· 源于生活,高于生活
· 得理不饶航空公司
· 我几乎撒谎 -- 与大家共勉
· "垃圾“市长
【脑筋不用急转弯 -- 续一】
· 从统计学看国人的冷漠
· 一波四折
· 考考大家的想象力 (附“答案”)
· 毒酒和老鼠 -- 据 KM 说是 GS 的
【往事越千年 -- 续一】
· 昆仑关大捷和《血染的风采》
· 歌剧演员和歌唱演员
· 我的超级记性
· We are doing the impossible
· 上海人的体育辉煌
· 大浪淘沙
· 我为革命下厨房
【Alaska 之旅】
· Alaska 之旅(3)--前人栽树,后
· Alaska 之旅(2)--一国两制害死
· Alaska 之旅(1)-- 终于露馅
【莫谈国是】
· 打死卞校长需要老毛圣旨吗?
· 蛮不讲理知“劲草”
· 重贴领导指示
· Hooter
· 我为“86万”叫好
· 领导指示。。。
· 重要的一年
· 随机抽查
· 三位知识分子的遗产
· 为公布100名红色通缉人员叫好
【(不是我的)童年 -- 续一】
· 小朋友的高见
· 这次不扣钱
· 女儿的“科研成果”
· 一家三口数学竞赛,我居然只拿了
· 活学活用
· Email from Santa
· “著名”泥塑艺术家
· 女儿的幽默
· 小狗不会告状
· 美国校车补遗
【脑筋不用急转弯】
· 气死数学家
· 好人坏人
· 抽水马桶史话 -- 山寨版
· 前几天,我打了一幅臭牌
· 911 能减少贸易赤字?
【人间 -- 续一】
· 桥牌中的运气(续)
· 向桃园机场致敬!
· 好记性不如烂笔头?
· 苦不能苦孩子,穷不能穷教育
· 酒文化
· 买车记
· 电影怀旧
· 烧菜“经验”点滴
· 一次难忘的音乐会
【无题】
· Waterpick
· 《蓝色天梦》点评
· Obama Care 的报税 – 寻求帮助
· 钢琴硕士和博士
· 赫鲁晓夫令人尊敬的一件往事
· 打桥牌和上厕所
· 聪明的车夫
· No School !
· 一段不错的绕口令
· Everyday is weekend
【(不是我的)童年 -- 续一】
【科普讲座 -- 续二】
· 统计样本的笑话
· 欧几里得21世纪的学生
· GDP和幸福指数
· 给电动车泼点冷水
· 信用卡的保护程序
· 自动驾驶
· “内行”的“外行”人之所见
· 精算师的风采
· 我说文理相通
· 人名不译
【科普讲座 -- 续一】
· 一次真正的忽悠 -- 双周房贷
· 论“房贷忽悠”之忽悠
【科普讲座】
· “不是数学家”的烦恼
· “永久”邮票
· 制度优势
· 又闻蝉鸣
· 独行侠张益唐 -- 转载自戴世强教
· 做一回事后诸葛亮
· 半路上杀出个程咬金
· 考试和做研究(4) 迟到创造了历
· 考试和做研究(3)桥牌博士论文
· 考试和做研究(2)
【华尔街的数学】
· 《华尔街数学》出版以后。。。
· 华尔街的数学(结束篇) 光辉的
· 华尔街的数学(19) 锻羽而归
· 华尔街的数学(18) 什锦拼盘
· 华尔街的数学(17) 橘子和苹果
· 华尔街的数学(16)苹果和橘子
· 华尔街的数学(15)“标准”手册
· 华尔街的数学(14)“涂改”数据
· 华尔街的数学(13)假“公”济私
· 华尔街的数学(12) 第三者的模
【街谈巷议】
· 拼死吃河豚
· 商人的智慧
· 在这儿,没有知遇之恩
· 部分大于整体
· 白草的战争逻辑
· 米饭里的沙子
· 吃力不讨好
· 丁惠民之问
· 贪官的智慧
· 最使我动容的一句话
【饮食文化】
· 小笼包史话
· 母亲的八宝辣酱
· 倚老卖老
· 搭便车
· 江浙点心和统一大业
· 糖藕 (非食谱)
· 蹄筋(非食谱)
【我的大学】
· 三强韩赵魏,九章勾股弦
· 惨烈的考试
· 重刑监狱犯人的数学难题
· 鱼骨头的故事
· 数学也有假冒伪劣
· 无名小卒和Nash大师的一段“交往”
· 别开生面的面试
· 我的第一次 0 + 1
· 大师的风采
· 桥牌博士
【人间】
· 你想不到的义工
· 丁惠民先生千古!
· 卡特总统生日快乐!
· 幽默的老板
· 买车记
· 个人自扫邻家雪
· 不说英语的留学生
· 多亏没有简体字
【(不是我的)童年】
· 女儿“学”元素周期表
· 一鸣惊人
· 布谷鸟又叫了
· 谁是老板?
· Potty 交响曲
· "重赏"之下, 必有&quo
【往事越千年】
· 瑪德琳饼干的故事
· 蒋经国的伟大
· 版权所有!!!
· 一身真伪有谁知
· 太湖美
· 人间自有真情在
· 蒋介石为胡适写的挽联
· 怀念胡耀邦
· 我家的“阿庆嫂”
· 我的英语老师
存档目录
2024-11-02 - 2024-11-13
2024-10-01 - 2024-10-31
2024-09-02 - 2024-09-26
2024-08-01 - 2024-08-31
2024-07-17 - 2024-07-29
2024-06-30 - 2024-06-30
2024-05-11 - 2024-05-30
2024-04-13 - 2024-04-17
2024-03-08 - 2024-03-08
2024-02-05 - 2024-02-11
2023-11-09 - 2023-11-09
2023-10-04 - 2023-10-18
2023-08-06 - 2023-08-06
2023-07-01 - 2023-07-28
2023-06-27 - 2023-06-27
2023-05-01 - 2023-05-21
2023-04-09 - 2023-04-23
2023-01-09 - 2023-01-22
2022-12-17 - 2022-12-17
2022-11-09 - 2022-11-19
2022-10-16 - 2022-10-21
2022-09-01 - 2022-09-10
2022-07-14 - 2022-07-25
2022-03-29 - 2022-03-29
2021-12-27 - 2021-12-27
2021-10-30 - 2021-10-30
2021-08-10 - 2021-08-10
2021-07-23 - 2021-07-23
2021-06-07 - 2021-06-28
2021-04-05 - 2021-04-05
2021-03-05 - 2021-03-10
2020-12-03 - 2020-12-30
2020-11-01 - 2020-11-26
2020-10-05 - 2020-10-24
2020-09-03 - 2020-09-20
2020-08-14 - 2020-08-31
2020-07-05 - 2020-07-24
2020-06-08 - 2020-06-08
2020-05-13 - 2020-05-27
2020-04-02 - 2020-04-30
2020-03-05 - 2020-03-26
2020-02-23 - 2020-02-23
2019-12-31 - 2019-12-31
2019-11-11 - 2019-11-24
2019-10-14 - 2019-10-18
2019-09-13 - 2019-09-24
2019-06-10 - 2019-06-10
2019-05-28 - 2019-05-28
2019-04-03 - 2019-04-28
2019-03-01 - 2019-03-14
2019-02-08 - 2019-02-23
2019-01-22 - 2019-01-28
2018-11-06 - 2018-11-08
2018-10-21 - 2018-10-21
2018-09-04 - 2018-09-28
2016-08-11 - 2016-08-11
2015-11-08 - 2015-11-22
2015-09-05 - 2015-09-27
2015-07-26 - 2015-07-27
2015-06-14 - 2015-06-14
2015-05-25 - 2015-05-30
2015-04-11 - 2015-04-11
2015-03-01 - 2015-03-02
2015-02-28 - 2015-02-28
2014-05-10 - 2014-05-10
2014-04-20 - 2014-04-20
2014-02-01 - 2014-02-22
2013-11-23 - 2013-11-23
2013-10-13 - 2013-10-19
2013-09-06 - 2013-09-14
2013-08-11 - 2013-08-31
2013-07-13 - 2013-07-23
2013-06-09 - 2013-06-09
2013-04-17 - 2013-04-21
2013-03-02 - 2013-03-02
2013-02-09 - 2013-02-23
2012-12-01 - 2012-12-29
2012-11-19 - 2012-11-28
2012-10-21 - 2012-10-21
2012-09-21 - 2012-09-21
2012-08-01 - 2012-08-03
2012-04-14 - 2012-04-14
2012-03-05 - 2012-03-05
2012-02-25 - 2012-02-26
2012-01-14 - 2012-01-28
2011-12-27 - 2011-12-27
2011-11-06 - 2011-11-20
2011-10-21 - 2011-10-29
2011-09-26 - 2011-09-26
2011-08-25 - 2011-08-27
2011-07-31 - 2011-07-31
2011-05-21 - 2011-05-21
2011-04-09 - 2011-04-21
2011-03-12 - 2011-03-12
2011-01-22 - 2011-01-31
2010-11-01 - 2010-11-10
2010-10-09 - 2010-10-12
2010-09-26 - 2010-09-30
2010-08-06 - 2010-08-28
2010-07-12 - 2010-07-25
2010-06-05 - 2010-06-19
2010-05-01 - 2010-05-30
2010-04-02 - 2010-04-24
2010-03-05 - 2010-03-26
2010-02-05 - 2010-02-26
2010-01-05 - 2010-01-27
2009-12-04 - 2009-12-29
2009-11-06 - 2009-11-27
2009-10-02 - 2009-10-30
2009-09-04 - 2009-09-25
2009-08-01 - 2009-08-30
 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. Creaders.NET. All Rights Reserved.