设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
0+1  
有感而发, 可多可少  
我的名片
0+1
注册日期: 2009-08-01
访问总量: 831,460 次
点击查看我的个人资料
Calendar
我的公告栏
最新发布
· 爷爷的爷爷
· 我和世界难题同龄
· 暗示的力量
· 太太的高见
· 高手在民间!
· 当书中出现错误
· 苏埃友谊万岁!
友好链接
分类目录
【埃及-约旦】
· 苏埃友谊万岁!
· Made in China
· 古埃及 – 科学和伪科学之集大成
· 伪科学比没有科学更可怕
· 埃及导游贾宝玉
· 真真假假的阿部辛贝勒神庙
· 为什么阿斯旺的酒店都在尼罗河东
【美国政治】
· 管的太宽了!
· 活该!
· 都不是好东西!
· 大厦将倾,独木能支
· 封口费造假帐合算吗?
· Hogan 州长
· “好东西”?
· 另类的清廉
· 另类的贪腐
· 都不是好东西
【2024奥运】
· 妄议奥运(二)
· 妄议奥运(一)
· 她又来了!
· 小国的奥运金牌
· 这个冠军不孤独
· 既生瑜,何生亮
· 我看着他打破世界记录
· 祝贺美国终于“第一名”
· 二比二
· 全红婵和周洋
【难题】
· “难题”(3)-- 意外的惊喜(解
· “难题”(3)-- 意外的惊喜
· “难题”(2) -- 鸡还是蛋 (解
· “难题”(2)-- 鸡还是蛋
· “难题”(1)-- “简单”的极限
· “难题”(1)-- “简单”的极限
【奇葩总统】
· 奇葩总统(1)- 股票总统
【最强大脑】
· 最强大脑 -- 色块迷踪(续)
· 最强大脑 -- 色块迷踪
· 最强大脑 -- 复活
· 最强大脑 -- 迷走点线
· 最强大脑 -- 珍稀足迹
· 最强大脑 -- 龟文古迹
· 最强大脑 -- 知己不知彼
· 最强大脑 -- 数字谜盘
· 最强大脑 -- 入场式
【书摘】
· 《华尔街数学》书摘 -- 暗示的力
· 《华尔街数学》书摘 -- 饮水不忘
· 《华尔街数学》书摘 -- 书缘
· 华尔街数学 -- 我的数学人生
【桥牌“外交”】
· 桥牌“外交”-- H先生
· 桥牌“外交”-- C先生
· 桥牌“外交”-- R先生
· 桥牌“外交”-- 引子
【脑筋不用急转弯 -- 续二】
· 24史
· 科学家的思考
· 朝四暮三
· 纸上谈兵?
· 为什么床铺死都不公布税表
· 质疑测量金字塔高度
· 如何用数学手段消除循环赛假球
· 如何尽快在大学新生中找出乙肝患
【我的大学 -- 续一】
· 太太太感谢您了!
· 饮水不忘掘井人
· 我的复旦梦
· 世界读书日
· 暗示的力量(2)
· 苏步青大师
· 久有凌云志,重翻几何书
· 人名不译
· 生成函数 -- 杀牛的鸡刀
· 欧拉定理的证明
【人间 -- 续二】
· 爷爷的爷爷
· 战俘 – 一个沉重的话题
· 我自认为相当理智和客观
· 一叶知秋
· 锦上添花和雪中送炭
· 异曲同工(三则)
· 社区的地球日
· 淡泊天涯
· 源于生活,高于生活
· 得理不饶航空公司
【脑筋不用急转弯 -- 续一】
· 从统计学看国人的冷漠
· 一波四折
· 考考大家的想象力 (附“答案”)
· 毒酒和老鼠 -- 据 KM 说是 GS 的
【往事越千年 -- 续一】
· 昆仑关大捷和《血染的风采》
· 歌剧演员和歌唱演员
· 我的超级记性
· We are doing the impossible
· 上海人的体育辉煌
· 大浪淘沙
· 我为革命下厨房
【Alaska 之旅】
· Alaska 之旅(3)--前人栽树,后
· Alaska 之旅(2)--一国两制害死
· Alaska 之旅(1)-- 终于露馅
【莫谈国是】
· 打死卞校长需要老毛圣旨吗?
· 蛮不讲理知“劲草”
· 重贴领导指示
· Hooter
· 我为“86万”叫好
· 领导指示。。。
· 重要的一年
· 随机抽查
· 三位知识分子的遗产
· 为公布100名红色通缉人员叫好
【(不是我的)童年 -- 续一】
· 小朋友的高见
· 这次不扣钱
· 女儿的“科研成果”
· 一家三口数学竞赛,我居然只拿了
· 活学活用
· Email from Santa
· “著名”泥塑艺术家
· 女儿的幽默
· 小狗不会告状
· 美国校车补遗
【脑筋不用急转弯】
· 气死数学家
· 好人坏人
· 抽水马桶史话 -- 山寨版
· 前几天,我打了一幅臭牌
· 911 能减少贸易赤字?
【人间 -- 续一】
· 桥牌中的运气(续)
· 向桃园机场致敬!
· 好记性不如烂笔头?
· 苦不能苦孩子,穷不能穷教育
· 酒文化
· 买车记
· 电影怀旧
· 烧菜“经验”点滴
· 一次难忘的音乐会
【无题】
· Waterpick
· 《蓝色天梦》点评
· Obama Care 的报税 – 寻求帮助
· 钢琴硕士和博士
· 赫鲁晓夫令人尊敬的一件往事
· 打桥牌和上厕所
· 聪明的车夫
· No School !
· 一段不错的绕口令
· Everyday is weekend
【(不是我的)童年 -- 续一】
【科普讲座 -- 续二】
· 统计样本的笑话
· 欧几里得21世纪的学生
· GDP和幸福指数
· 给电动车泼点冷水
· 信用卡的保护程序
· 自动驾驶
· “内行”的“外行”人之所见
· 精算师的风采
· 我说文理相通
· 人名不译
【科普讲座 -- 续一】
· 一次真正的忽悠 -- 双周房贷
· 论“房贷忽悠”之忽悠
【科普讲座】
· “不是数学家”的烦恼
· “永久”邮票
· 制度优势
· 又闻蝉鸣
· 独行侠张益唐 -- 转载自戴世强教
· 做一回事后诸葛亮
· 半路上杀出个程咬金
· 考试和做研究(4) 迟到创造了历
· 考试和做研究(3)桥牌博士论文
· 考试和做研究(2)
【华尔街的数学】
· 《华尔街数学》出版以后。。。
· 华尔街的数学(结束篇) 光辉的
· 华尔街的数学(19) 锻羽而归
· 华尔街的数学(18) 什锦拼盘
· 华尔街的数学(17) 橘子和苹果
· 华尔街的数学(16)苹果和橘子
· 华尔街的数学(15)“标准”手册
· 华尔街的数学(14)“涂改”数据
· 华尔街的数学(13)假“公”济私
· 华尔街的数学(12) 第三者的模
【街谈巷议】
· 太太的高见
· 高手在民间!
· 广州地铁的闹剧
· 下有对策,上无政策?
· 拼死吃河豚
· 商人的智慧
· 在这儿,没有知遇之恩
· 部分大于整体
· 白草的战争逻辑
· 米饭里的沙子
【饮食文化】
· 小笼包史话
· 母亲的八宝辣酱
· 倚老卖老
· 搭便车
· 江浙点心和统一大业
· 糖藕 (非食谱)
· 蹄筋(非食谱)
【我的大学】
· 我和世界难题同龄
· 暗示的力量
· 三强韩赵魏,九章勾股弦
· 惨烈的考试
· 重刑监狱犯人的数学难题
· 鱼骨头的故事
· 数学也有假冒伪劣
· 无名小卒和Nash大师的一段“交往
· 别开生面的面试
· 我的第一次 0 + 1
【人间】
· 当书中出现错误
· 你想不到的义工
· 丁惠民先生千古!
· 卡特总统生日快乐!
· 幽默的老板
· 买车记
· 个人自扫邻家雪
· 不说英语的留学生
· 多亏没有简体字
【(不是我的)童年】
· 女儿“学”元素周期表
· 一鸣惊人
· 布谷鸟又叫了
· 谁是老板?
· Potty 交响曲
· "重赏"之下, 必有&quo
【往事越千年】
· 瑪德琳饼干的故事
· 蒋经国的伟大
· 版权所有!!!
· 一身真伪有谁知
· 太湖美
· 人间自有真情在
· 蒋介石为胡适写的挽联
· 怀念胡耀邦
· 我家的“阿庆嫂”
· 我的英语老师
存档目录
01/01/2025 - 01/31/2025
12/01/2024 - 12/31/2024
11/01/2024 - 11/30/2024
10/01/2024 - 10/31/2024
09/01/2024 - 09/30/2024
08/01/2024 - 08/31/2024
07/01/2024 - 07/31/2024
06/01/2024 - 06/30/2024
05/01/2024 - 05/31/2024
04/01/2024 - 04/30/2024
03/01/2024 - 03/31/2024
02/01/2024 - 02/29/2024
11/01/2023 - 11/30/2023
10/01/2023 - 10/31/2023
08/01/2023 - 08/31/2023
07/01/2023 - 07/31/2023
06/01/2023 - 06/30/2023
05/01/2023 - 05/31/2023
04/01/2023 - 04/30/2023
01/01/2023 - 01/31/2023
12/01/2022 - 12/31/2022
11/01/2022 - 11/30/2022
10/01/2022 - 10/31/2022
09/01/2022 - 09/30/2022
07/01/2022 - 07/31/2022
03/01/2022 - 03/31/2022
12/01/2021 - 12/31/2021
10/01/2021 - 10/31/2021
08/01/2021 - 08/31/2021
07/01/2021 - 07/31/2021
06/01/2021 - 06/30/2021
04/01/2021 - 04/30/2021
03/01/2021 - 03/31/2021
12/01/2020 - 12/31/2020
11/01/2020 - 11/30/2020
10/01/2020 - 10/31/2020
09/01/2020 - 09/30/2020
08/01/2020 - 08/31/2020
07/01/2020 - 07/31/2020
06/01/2020 - 06/30/2020
05/01/2020 - 05/31/2020
04/01/2020 - 04/30/2020
03/01/2020 - 03/31/2020
02/01/2020 - 02/29/2020
12/01/2019 - 12/31/2019
11/01/2019 - 11/30/2019
10/01/2019 - 10/31/2019
09/01/2019 - 09/30/2019
06/01/2019 - 06/30/2019
05/01/2019 - 05/31/2019
04/01/2019 - 04/30/2019
03/01/2019 - 03/31/2019
02/01/2019 - 02/28/2019
01/01/2019 - 01/31/2019
11/01/2018 - 11/30/2018
10/01/2018 - 10/31/2018
09/01/2018 - 09/30/2018
08/01/2016 - 08/31/2016
11/01/2015 - 11/30/2015
09/01/2015 - 09/30/2015
07/01/2015 - 07/31/2015
06/01/2015 - 06/30/2015
05/01/2015 - 05/31/2015
04/01/2015 - 04/30/2015
03/01/2015 - 03/31/2015
02/01/2015 - 02/28/2015
05/01/2014 - 05/31/2014
04/01/2014 - 04/30/2014
02/01/2014 - 02/28/2014
11/01/2013 - 11/30/2013
10/01/2013 - 10/31/2013
09/01/2013 - 09/30/2013
08/01/2013 - 08/31/2013
07/01/2013 - 07/31/2013
06/01/2013 - 06/30/2013
04/01/2013 - 04/30/2013
03/01/2013 - 03/31/2013
02/01/2013 - 02/28/2013
12/01/2012 - 12/31/2012
11/01/2012 - 11/30/2012
10/01/2012 - 10/31/2012
09/01/2012 - 09/30/2012
08/01/2012 - 08/31/2012
04/01/2012 - 04/30/2012
03/01/2012 - 03/31/2012
02/01/2012 - 02/29/2012
01/01/2012 - 01/31/2012
12/01/2011 - 12/31/2011
11/01/2011 - 11/30/2011
10/01/2011 - 10/31/2011
09/01/2011 - 09/30/2011
08/01/2011 - 08/31/2011
07/01/2011 - 07/31/2011
05/01/2011 - 05/31/2011
04/01/2011 - 04/30/2011
03/01/2011 - 03/31/2011
01/01/2011 - 01/31/2011
11/01/2010 - 11/30/2010
10/01/2010 - 10/31/2010
09/01/2010 - 09/30/2010
08/01/2010 - 08/31/2010
07/01/2010 - 07/31/2010
06/01/2010 - 06/30/2010
05/01/2010 - 05/31/2010
04/01/2010 - 04/30/2010
03/01/2010 - 03/31/2010
02/01/2010 - 02/28/2010
01/01/2010 - 01/31/2010
12/01/2009 - 12/31/2009
11/01/2009 - 11/30/2009
10/01/2009 - 10/31/2009
09/01/2009 - 09/30/2009
08/01/2009 - 08/31/2009
发表评论
作者:
用户名: 密码: 您还不是博客/论坛用户?现在就注册!
     
评论:
华尔街的数学(16)苹果和橘子
   

            英语中常说,“Compare Apple with Orange”,就是说两者没有可比性,根本就不应该去比。 但是实际工作中,有时候我们需要比较两件很难相比的事情。有一次有个部门需要比较两组房贷的Prepayment(见《前言》中定义,与本篇内容无太大关系),两组差别很大,根据分组的技术细节,他们认为应该基本没有差别。只有两个可能。一是两组成分有差别,比如女的平均寿命就是比男的长。如果一组女的比例比另一组高的多,平均寿命当然就长了。另一种可能是我们认为分组的过程是无偏差的(No Bias),但实际上是有的,只是我们不理解或疏忽了。如果是后面一种,那就说明公司做生意的方式就要有很大改变。为避免涉及太多细节,我们还是用人口问题替代。

 

            现在假定两个相邻地区AB的死亡率有很大差别,我们想找出原因。为了验证是否上面所说第一种可能,我们先分一下组。首先是男女分为两组。按是否抽烟可分为三类,烟民,烟民家庭成员,不抽烟的。因为死亡率对年龄依赖较大,我们不妨分为四个组。这四个组怎么划分,没有统一标准,这不是发射卫星,合理就行。总共是24个组。这儿研究对象不止是活着的,去世的也要按照生前情况归入相应的组。

 

            分了组还是没解决问题,我们选几个人数多的组,有的A高,有的B高。这还不算,AB的总人口差得相当多,所以大部分对应的组人口也差很多。这是我最狼狈的一次,用老话说是一团乱麻,时髦点就是一地鸡毛了。眼看大限快到了,谢天谢地,老板说,那个会延期了。运气还不错,居然延了好几次,所以前后做了一个多月。

 

            最后的大限快到了,还算通融的老板也有点不高兴了,叫我就用传统的分组比较“方法”多少做点东西,他在会上有个交待。我难得厚着脸皮又要了两天,做好了“不成功则成仁”的思想准备,准备好最后两天干通宵,弄点似是而非的东西让他去交差。我先是想到一点小改进。AB人口不一样,现在假定A较少,我们就乘个常数,使他们一样,就象数学中常说的归一化。这样A区每个组的死亡率和总人口的死亡率都保持不变,但AB总人口总算一样了。尽管这时会有1.3个人抽烟之类的怪事,但不影响我们讨论死亡率。总人口一样了,每个组的人数还是不一样,有的组A人多,有的组B人多,如果全部一样那就可直接比较了。病急乱投医,我想,不妨把可比部分先比较一下吧。比如某一组A100人,B120人,我们可以算出两者的死亡率,B就扔掉20人,然后只比100人。如此办理,这一组B扔掉几个,那一组A扔掉几个,求大同存小异,把共同部分比一下,结果一举成功。

 

            如果组分的比较粗,共同部分就比较大,在房贷的实际例子中,按照最重要的因素利率分组,共同部分可达到90%多一些,两者的Prepayment还有差距,但已经相当接近了。分的越细,扔掉的就越多,但如果两组样本确实一样,结果就越接近。当初按最细的方法分组可把80%多的房贷进行直接比较,这时两者几乎已经完全一样了。这个进公司后耗时最久的研究项目终于80%圆满成功,剩下的20%已经不是苹果橘子的问题了,这边有橘子或苹果,那边什么都没有。反之亦然。

 

            现在我用一个假想例子来说明如何运用这种技术。假设我们知道AB两区10年前的人口年龄分布,死亡率一栏是10年里的年平均死亡率(Annualized)。这是我从早年的精算数学课本上抄来的,也并非空穴来风。我们现在理想化,设定两个区每组的死亡率完全一样。A区总人口160万,B272万。A区归一后的总人口和B一样,但如表所示,每组人数还是不一样。AB栏为可比部分,257.4万,占总人口94.6%。由于我们的简化,AB的总体可比死亡率是一模一样的,在这儿是11.0‰。在实际工作中,AB要分别计算。如果直接比较,我们发现A13.8‰B10.7‰AB高了将近30%。完全一样的死亡率,纯粹由于人口分布不同,居然引起这么大区别。我们可以逐行考察找原因。有了,80岁以上年龄组A的比例比B大,归一后多了三千五。如果没有这儿的归一技术,连这点都很难直接看出。但是这也没有解决问题,死亡率次高的71-80年龄组,A不是比B多了一万六吗?在我们的实际工作中,分得最细时大概总有几千组,而且即使统计意义上相同的两个样本,观察数字还是有差别的,分组用肉眼找原因绝对是死路一条。

 
年龄组           死亡率            A区     (归一)A区            B区             AB
0-10 0.001532 120,000 204,000 250,000 204,000
11-30 0.001016 500,000 850,000 900,000 850,000
31-50 0.002860 400,000 680,000 700,000 680,000
51-60 0.009648 350,000 595,000 500,000 500,000
61-70 0.021919 100,000 170,000 200,000 170,000
71-80 0.048588 80,000 136,000 120,000 120,000
81+ 0.214950 50,000 85,000 50,000 50,000
总数 1,600,000 2,720,000 2,720,000 2,574,000
总死亡率 0.013774 0.013774 0.010693 0.010975

 

            这个假想例子的95%当然非常令人信服,我工作的实际例子中80%应该也可以接受,70%呢?邮局辨认邮政编码,硬件部分是光电感应,软体部分就是模糊数学了。如果某一个字与他们的“标准”数字有80%相似,他们就认为可以接受。所以根据这经验数字,80%或许是个比较合理的判断标准。

 

            我考虑过能否建立一种系统的方法,类似统计中的置信区间(Confidence Level)。我想这应该由以下几个因素决定:归一以后的可比人数,X%;这X%人口的平均误差YAB两组的各自的标准误差,其中有一组的标准误差在归一过程中被放大,也必须要考虑进去。我这个半路出家搞统计的看来功力还不够,欢迎有兴趣的读者深入研究下去,如果成功了请把这篇短文放进参考文献,谢谢。

 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.