设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
0+1  
有感而发, 可多可少  
网络日志正文
华尔街的数学(5) 平均场近似 2009-09-04 14:57:23

我找到第一份工作, 是因为公司软件的心脏, Prepayment (参见 《前言》) 模型出问题了. 公司刚推出这软件时, 在市场上几乎没有竞争者, 日子很好过. 随着竞争者的出现, 模型质量的问题就浮现出来了. 公司换了好几次人, Ph. D., 也有MBA, 都没能解决问题. 公司有一员工是我博士后导师的学生, 我后来的老板就叫他问我导师, 能否从他所在的 Courant 数学研究所推荐一个精通统计的数学家.

 

我现在用等价的且非常类似的人口模型来描述这个模型. 设死亡率 P服从 Logistic 函数

P = 1 / [1 + exp(-X)]. ≡ L(X)

X 为事件的一些特征量乘以待定系数后求和. 这些特征量一般不止一个, 可以是连续的或离散的,这待定系数当然是不变的. 对于人口模型, 连续变量可以是年龄, 血压, 各种血液指标等等. 离散变量可以是性别, 地区, 是否抽烟等等. 这些特征量一般是因人而异的. P = 0 就是活着, P = 1 就是死了. 工作的第一步是把有类似特征的人分组(Aggregation), 那些特征量就用平均值代替. P 也用平均值代替, 一般情况下, 这是 [0,1] 中间的一个小数. 这些平均值现在是因组而异了.

 

            大家比较熟悉的最小二乘法, 要求P 是特征量的直接线性组合, 然后运用简单的矩阵代数即可一步算出这些待定系数及相应的统计指标. p 代表模型预测值,最小二乘法要求系数使 (P – p) 的平方和最小. Logistic 模型中, P 显然不是特征量的直接线性组合. 我那 MBA 老板想出一个变换(其实是书上的), 大家可让高中以上学历的儿子女儿作练习帮你推导.

            X = Ln [P / (1 – P)] ≡ f(P)

这儿 Ln 是自然对数.尽管P 不是特征量的直接线性组合, f(P) 却是的. 因为对每一组来说, P 是可以观察的, 所以f(P) 可以很容易地算出来. 于是统计软件 SAS 的子程序 Proc REG 可以很容易把待定系数一步算出来.

 

            美国市场上的房贷可分为两类, 一类是由国家通过 Fannie Mae Freddie Mac 间接担保的, 称为 Agency. 其余的称为 Private Label. 前者数量巨大, 历史悠久, 且有一定限制, 所以那些特征量分布相对集中.. 后者数目小的多, 且属于好几十家大大小小的公司, 而我们公司当时的数据, 只是其中一家较大的, Residential Funding Corporation  (RFC), 样本空间更是小得可怜. 经过分组, 前者大多数组人口众多. 后者大部分每组只有小猫两三只.. 当老板把这变换过的模型应用到Agency, 结果似乎不错. 但把这方法应用于后者时, 连第一步都迈不出去, 当每组只有一个, P 0 1, f(P) 是发散的. 即使有两三个”, 也往往由于大家都, f(P) 还是发散的. 我进公司的第一个项目(Project), 就是要解决这个问题..

 

我第一天九点上班, 老板马上把这任务给交代了, 没一会儿, 我就发现, 经过变换, 目标函数变掉了, 现在的极值解, 已经不是原来要求的极值解. 不管是线性还是非线性回归, 都要求预测量和观察量之差的平方和最小, 只有这样才能保证预测量尽可能接近观察量. 这儿加了引号是因为这接近并无官方标准. 但可以证明, 线性回归在这种定义下的解是无偏差的 (No Bias), 即样本空间观察量和预测量的总平均是完全相等的. 这种定义只涉及到(二次)幂函数, 数学处理也很方便, 所以学术界和工业界基本上都采用这种定义. 我老板的变换, 看上去很潇洒, 实际已把接近的定义给篡改了. X 对应的解和 L(X) 所对应的解是不一样. 再仔细分析, 这实际上是物理中常用的平均场近似. 平均场近似的具体应用方式千变万化, 但总是把函数中某一物理量用另一物理量, 甚至某种平均值来代替. 这种变换, 有些有直观的物理意义, 有些则很难看出, 他们有一共同点,  简化后的新问题是可以严格求解的.

 

我老板的这个变换, 很难凭直觉看出统计上的意义. 现在假定模型非常准确, 但由于样本是有限的, 每组的观察量和预测量还是不可能一样. 根据大数定理(Central Limit Theorem), 当组里人数越来越多时, 两者会越来越接近. 读者如有大学理科以上学历的儿子女儿,可让他们帮你证明, N 趋于无穷时

f(P) – X => [P – L(X)] / [P (1 – P)]

所以我老板的变换就是一个典型的平均场近似, 只是他不知道而已. 这模型应用于Agency 房贷相当成功就是这个原因. 如果每组人数很少, 以至只有一个, 两者不可能接近, 这就是变换失败的原因.

 

            这时大约是午饭时间, 我向老板汇报了进展, 问题的根源总算找到了. 人们常说, 提出问题就等于解决了一半, 现在找出根源就算再一半, 剩下的 1/4 也并不容易. 先是要找到数学工具. 回家后秉烛夜读, 终于发现最大拟然法(Maximum Likelihood)就是对付这种情况的. 它先通过模型求出(整个)样本空间事件发生的几率, 然后变化模型参数使几率最大化. 因为几率必须逐计算然后相乘, “人口众多的Agency 真还不能用这方法. 从这个意义上说, 这个方法简直就是为我的情况量身定做的. 方法找到, 还要寻找适合的软件, 自己写程序应该是最后一道防线, 是没有办法的办法. 通过一番搜寻, 我发现 SAS 的子程序Proc GENMOD 可以做这工作.

 

正确方法确定以后, 埋头苦干就是决定的因素. 经过好几个星期枯燥单调的工作, 还加了一些班, 我终于把两个模型都如期做出, 公司的软件再次获得新生, New Release 也如期送出. 其中的 Agency 模型,经过进一步改进后, 1997 年经过激烈竞争, Dow Jones 旗下的Telerate 选中, 作为他们 Prepayment 中长期预报的模型. 关于Private Label 模型的工作, 我先后两次在这方面的标准丛书发表论文.

 

     在整个系列中, 这篇估计是最枯燥难懂的.这个问题的突破口是从略微高深的平均场近似开始的. 除此之外, 还需要好几方面的比较高深的统计知识. 但是, 如我在《前言》中所说, 和学校研究所的工作还是不能相提并论, 档次要低得多. 模型建立过程, 不需要太高深的学问, 但丰富的经验是必需的. 我那时刚工作, 研究生和博士后的研究经验并非完全适用,所以也走过些弯路. 但这个干中学”, 对我来说毕竟不是一件很难的事. 事实上, 以后发现, 我选的Proc GENMOD 在这儿并非最佳选择. 它也可以通过特殊的设定, Gaussian Lognormal函数进行最大拟然法计算. 线性回归作为特例也可以用它. 大家知道, 通用性越好的软件, 效率就越低, 有时精确度都会受影响. 这有点象活络扳手和固定扳手的区别. SAS 实际上有一种子程序, Proc Logistic, 专门对Logistic 函数用最大拟然法进行分析.
浏览(2903) (0) 评论(2)
发表评论
文章评论
作者:0+1 留言时间:2009-09-06 16:12:27
陌路知己:
一开始不是我做的,我已经说了,因为他们一开始没做对,我才幸运找到了第一份工作.
回复 | 0
作者:震全球 留言时间:2009-09-05 20:11:34
您这个问题,一开始就应该用logistic regression, 真不明白你们这些PhD是怎马混出来的; 如果再稍微明白点,应该用的其实是conditional logistic or survival analysis 去计算 mortgage 的 default 和 prepayment, aka, competing risk.
回复 | 0
我的名片
0+1
注册日期: 2009-08-01
访问总量: 781,564 次
点击查看我的个人资料
Calendar
最新发布
· 你想不到的义工
· Made in China
· 活该!
· 古埃及 – 科学和伪科学之集大成
· 伪科学比没有科学更可怕
· 埃及导游贾宝玉
· 真真假假的阿部辛贝勒神庙
分类目录
【埃及-约旦】
· Made in China
· 古埃及 – 科学和伪科学之集大成
· 伪科学比没有科学更可怕
· 埃及导游贾宝玉
· 真真假假的阿部辛贝勒神庙
· 为什么阿斯旺的酒店都在尼罗河东
【美国政治】
· 活该!
· 都不是好东西!
· 大厦将倾,独木能支
· 封口费造假帐合算吗?
· Hogan 州长
· “好东西”?
· 另类的清廉
· 另类的贪腐
· 都不是好东西
【2024奥运】
· 妄议奥运(二)
· 妄议奥运(一)
· 她又来了!
· 小国的奥运金牌
· 这个冠军不孤独
· 既生瑜,何生亮
· 我看着他打破世界记录
· 祝贺美国终于“第一名”
· 二比二
· 全红婵和周洋
【难题】
· “难题”(3)-- 意外的惊喜(解答
· “难题”(3)-- 意外的惊喜
· “难题”(2) -- 鸡还是蛋 (解答
· “难题”(2)-- 鸡还是蛋
· “难题”(1)-- “简单”的极限题(
· “难题”(1)-- “简单”的极限题
【奇葩总统】
· 奇葩总统(1)- 股票总统
【最强大脑】
· 最强大脑 -- 色块迷踪(续)
· 最强大脑 -- 色块迷踪
· 最强大脑 -- 复活
· 最强大脑 -- 迷走点线
· 最强大脑 -- 珍稀足迹
· 最强大脑 -- 龟文古迹
· 最强大脑 -- 知己不知彼
· 最强大脑 -- 数字谜盘
· 最强大脑 -- 入场式
【书摘】
· 《华尔街数学》书摘 -- 暗示的力
· 《华尔街数学》书摘 -- 饮水不忘
· 《华尔街数学》书摘 -- 书缘
· 华尔街数学 -- 我的数学人生
【桥牌“外交”】
· 桥牌“外交”-- H先生
· 桥牌“外交”-- C先生
· 桥牌“外交”-- R先生
· 桥牌“外交”-- 引子
【脑筋不用急转弯 -- 续二】
· 24史
· 科学家的思考
· 朝四暮三
· 纸上谈兵?
· 为什么床铺死都不公布税表
· 质疑测量金字塔高度
· 如何用数学手段消除循环赛假球
· 如何尽快在大学新生中找出乙肝患
【我的大学 -- 续一】
· 太太太感谢您了!
· 饮水不忘掘井人
· 我的复旦梦
· 世界读书日
· 暗示的力量(2)
· 苏步青大师
· 久有凌云志,重翻几何书
· 人名不译
· 生成函数 -- 杀牛的鸡刀
· 欧拉定理的证明
【人间 -- 续二】
· 我自认为相当理智和客观
· 一叶知秋
· 锦上添花和雪中送炭
· 异曲同工(三则)
· 社区的地球日
· 淡泊天涯
· 源于生活,高于生活
· 得理不饶航空公司
· 我几乎撒谎 -- 与大家共勉
· "垃圾“市长
【脑筋不用急转弯 -- 续一】
· 从统计学看国人的冷漠
· 一波四折
· 考考大家的想象力 (附“答案”)
· 毒酒和老鼠 -- 据 KM 说是 GS 的
【往事越千年 -- 续一】
· 昆仑关大捷和《血染的风采》
· 歌剧演员和歌唱演员
· 我的超级记性
· We are doing the impossible
· 上海人的体育辉煌
· 大浪淘沙
· 我为革命下厨房
【Alaska 之旅】
· Alaska 之旅(3)--前人栽树,后
· Alaska 之旅(2)--一国两制害死
· Alaska 之旅(1)-- 终于露馅
【莫谈国是】
· 打死卞校长需要老毛圣旨吗?
· 蛮不讲理知“劲草”
· 重贴领导指示
· Hooter
· 我为“86万”叫好
· 领导指示。。。
· 重要的一年
· 随机抽查
· 三位知识分子的遗产
· 为公布100名红色通缉人员叫好
【(不是我的)童年 -- 续一】
· 小朋友的高见
· 这次不扣钱
· 女儿的“科研成果”
· 一家三口数学竞赛,我居然只拿了
· 活学活用
· Email from Santa
· “著名”泥塑艺术家
· 女儿的幽默
· 小狗不会告状
· 美国校车补遗
【脑筋不用急转弯】
· 气死数学家
· 好人坏人
· 抽水马桶史话 -- 山寨版
· 前几天,我打了一幅臭牌
· 911 能减少贸易赤字?
【人间 -- 续一】
· 桥牌中的运气(续)
· 向桃园机场致敬!
· 好记性不如烂笔头?
· 苦不能苦孩子,穷不能穷教育
· 酒文化
· 买车记
· 电影怀旧
· 烧菜“经验”点滴
· 一次难忘的音乐会
【无题】
· Waterpick
· 《蓝色天梦》点评
· Obama Care 的报税 – 寻求帮助
· 钢琴硕士和博士
· 赫鲁晓夫令人尊敬的一件往事
· 打桥牌和上厕所
· 聪明的车夫
· No School !
· 一段不错的绕口令
· Everyday is weekend
【(不是我的)童年 -- 续一】
【科普讲座 -- 续二】
· 统计样本的笑话
· 欧几里得21世纪的学生
· GDP和幸福指数
· 给电动车泼点冷水
· 信用卡的保护程序
· 自动驾驶
· “内行”的“外行”人之所见
· 精算师的风采
· 我说文理相通
· 人名不译
【科普讲座 -- 续一】
· 一次真正的忽悠 -- 双周房贷
· 论“房贷忽悠”之忽悠
【科普讲座】
· “不是数学家”的烦恼
· “永久”邮票
· 制度优势
· 又闻蝉鸣
· 独行侠张益唐 -- 转载自戴世强教
· 做一回事后诸葛亮
· 半路上杀出个程咬金
· 考试和做研究(4) 迟到创造了历
· 考试和做研究(3)桥牌博士论文
· 考试和做研究(2)
【华尔街的数学】
· 《华尔街数学》出版以后。。。
· 华尔街的数学(结束篇) 光辉的
· 华尔街的数学(19) 锻羽而归
· 华尔街的数学(18) 什锦拼盘
· 华尔街的数学(17) 橘子和苹果
· 华尔街的数学(16)苹果和橘子
· 华尔街的数学(15)“标准”手册
· 华尔街的数学(14)“涂改”数据
· 华尔街的数学(13)假“公”济私
· 华尔街的数学(12) 第三者的模
【街谈巷议】
· 拼死吃河豚
· 商人的智慧
· 在这儿,没有知遇之恩
· 部分大于整体
· 白草的战争逻辑
· 米饭里的沙子
· 吃力不讨好
· 丁惠民之问
· 贪官的智慧
· 最使我动容的一句话
【饮食文化】
· 小笼包史话
· 母亲的八宝辣酱
· 倚老卖老
· 搭便车
· 江浙点心和统一大业
· 糖藕 (非食谱)
· 蹄筋(非食谱)
【我的大学】
· 三强韩赵魏,九章勾股弦
· 惨烈的考试
· 重刑监狱犯人的数学难题
· 鱼骨头的故事
· 数学也有假冒伪劣
· 无名小卒和Nash大师的一段“交往”
· 别开生面的面试
· 我的第一次 0 + 1
· 大师的风采
· 桥牌博士
【人间】
· 你想不到的义工
· 丁惠民先生千古!
· 卡特总统生日快乐!
· 幽默的老板
· 买车记
· 个人自扫邻家雪
· 不说英语的留学生
· 多亏没有简体字
【(不是我的)童年】
· 女儿“学”元素周期表
· 一鸣惊人
· 布谷鸟又叫了
· 谁是老板?
· Potty 交响曲
· "重赏"之下, 必有&quo
【往事越千年】
· 瑪德琳饼干的故事
· 蒋经国的伟大
· 版权所有!!!
· 一身真伪有谁知
· 太湖美
· 人间自有真情在
· 蒋介石为胡适写的挽联
· 怀念胡耀邦
· 我家的“阿庆嫂”
· 我的英语老师
存档目录
2024-11-02 - 2024-11-13
2024-10-01 - 2024-10-31
2024-09-02 - 2024-09-26
2024-08-01 - 2024-08-31
2024-07-17 - 2024-07-29
2024-06-30 - 2024-06-30
2024-05-11 - 2024-05-30
2024-04-13 - 2024-04-17
2024-03-08 - 2024-03-08
2024-02-05 - 2024-02-11
2023-11-09 - 2023-11-09
2023-10-04 - 2023-10-18
2023-08-06 - 2023-08-06
2023-07-01 - 2023-07-28
2023-06-27 - 2023-06-27
2023-05-01 - 2023-05-21
2023-04-09 - 2023-04-23
2023-01-09 - 2023-01-22
2022-12-17 - 2022-12-17
2022-11-09 - 2022-11-19
2022-10-16 - 2022-10-21
2022-09-01 - 2022-09-10
2022-07-14 - 2022-07-25
2022-03-29 - 2022-03-29
2021-12-27 - 2021-12-27
2021-10-30 - 2021-10-30
2021-08-10 - 2021-08-10
2021-07-23 - 2021-07-23
2021-06-07 - 2021-06-28
2021-04-05 - 2021-04-05
2021-03-05 - 2021-03-10
2020-12-03 - 2020-12-30
2020-11-01 - 2020-11-26
2020-10-05 - 2020-10-24
2020-09-03 - 2020-09-20
2020-08-14 - 2020-08-31
2020-07-05 - 2020-07-24
2020-06-08 - 2020-06-08
2020-05-13 - 2020-05-27
2020-04-02 - 2020-04-30
2020-03-05 - 2020-03-26
2020-02-23 - 2020-02-23
2019-12-31 - 2019-12-31
2019-11-11 - 2019-11-24
2019-10-14 - 2019-10-18
2019-09-13 - 2019-09-24
2019-06-10 - 2019-06-10
2019-05-28 - 2019-05-28
2019-04-03 - 2019-04-28
2019-03-01 - 2019-03-14
2019-02-08 - 2019-02-23
2019-01-22 - 2019-01-28
2018-11-06 - 2018-11-08
2018-10-21 - 2018-10-21
2018-09-04 - 2018-09-28
2016-08-11 - 2016-08-11
2015-11-08 - 2015-11-22
2015-09-05 - 2015-09-27
2015-07-26 - 2015-07-27
2015-06-14 - 2015-06-14
2015-05-25 - 2015-05-30
2015-04-11 - 2015-04-11
2015-03-01 - 2015-03-02
2015-02-28 - 2015-02-28
2014-05-10 - 2014-05-10
2014-04-20 - 2014-04-20
2014-02-01 - 2014-02-22
2013-11-23 - 2013-11-23
2013-10-13 - 2013-10-19
2013-09-06 - 2013-09-14
2013-08-11 - 2013-08-31
2013-07-13 - 2013-07-23
2013-06-09 - 2013-06-09
2013-04-17 - 2013-04-21
2013-03-02 - 2013-03-02
2013-02-09 - 2013-02-23
2012-12-01 - 2012-12-29
2012-11-19 - 2012-11-28
2012-10-21 - 2012-10-21
2012-09-21 - 2012-09-21
2012-08-01 - 2012-08-03
2012-04-14 - 2012-04-14
2012-03-05 - 2012-03-05
2012-02-25 - 2012-02-26
2012-01-14 - 2012-01-28
2011-12-27 - 2011-12-27
2011-11-06 - 2011-11-20
2011-10-21 - 2011-10-29
2011-09-26 - 2011-09-26
2011-08-25 - 2011-08-27
2011-07-31 - 2011-07-31
2011-05-21 - 2011-05-21
2011-04-09 - 2011-04-21
2011-03-12 - 2011-03-12
2011-01-22 - 2011-01-31
2010-11-01 - 2010-11-10
2010-10-09 - 2010-10-12
2010-09-26 - 2010-09-30
2010-08-06 - 2010-08-28
2010-07-12 - 2010-07-25
2010-06-05 - 2010-06-19
2010-05-01 - 2010-05-30
2010-04-02 - 2010-04-24
2010-03-05 - 2010-03-26
2010-02-05 - 2010-02-26
2010-01-05 - 2010-01-27
2009-12-04 - 2009-12-29
2009-11-06 - 2009-11-27
2009-10-02 - 2009-10-30
2009-09-04 - 2009-09-25
2009-08-01 - 2009-08-30
 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. Creaders.NET. All Rights Reserved.