设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
0+1  
有感而发, 可多可少  
网络日志正文
华尔街的数学(14)“涂改”数据 2010-02-05 13:33:18

        大部分数据可以分成两类,静态(Static)和动态(Time Series,文中将称为时间序列,简称序列)。静态的包含那些不会随时间变化的数据,动态就是那些随时间变化的。以房贷为例,贷款(初始)金额,所在州及邮政编码,第一次付款日期(First Payment Day) 等显然属于静态,不用每月更新。下面介绍几个动态变量。每月月底剩余金额,就是指月付付掉以后的金额。付款违例次数,你欠了几个月的付款。(每月)即时状态,有正常,付清(即所剩金额为0),进入拍卖程序(Foreclosure),所有权转换(REO)。如果是可调利率,每月的利息也是随时间变化的,当然一般来说不会每月都变。这儿金额一项是连续变量,最容易出错。其它各项都是离散量,出错可能就小得多。就象录像带容易损坏,CD就耐用的多。

 

            所谓数据“错误”,实际又分两类。一种是明显的操作错误,比如房贷利率625%,显然是6.25%之误。即使是这样的错误,也不是操作人员可以自己修改的。至少至少也要老板签个字,然后备案。至于下面要说的那些“错误”,是根本不允许改的。有些从数据角度来说根本不是错。有些是错,比如数据空缺,但你不可以耍小聪明把它补上去。原始数据不许动,但使用时你还是可以根据具体要求将其修补的。还有些时候,一个问题有两个正确答案。有一次有人问我,房贷的终结日期(Liquidation Date)怎么定义。我差点脱口而出,本金付清的那一天,忽然想到不完全对。如果模型或报表是为债劵投资人服务的,那是对的,因为在那一天,他们把投资全部收回。同样道理,给税务部门或证管会的报表也要这么处理,因为在那一天这笔钱从你账上划掉了。但对于担保债劵的部门,从这个房贷停止月付那个月起,他们就开始亏损了。如果屋主后来痛改前非,担保者有惊无险,亏的钱总算拿回来。如果屋主一直没付,直至被银行拍卖,对他们来说这个房贷从停止月付的那个月起,这个房贷就已经终止了。解决这个问题的方法有两种。一是数据库再加个变量,使用者到时候各取所需。另一个是使用者临阵磨枪,用的时候自己发挥。

 

        以前我一直避免贷款支付的细节,上一篇涉及了一些,这儿稍微再深入一些,讨论只涉及固定利率。月底剩余金额,我们一般称为UPBUnpaid Balance),两个月的UPB之间,存在着简单关系

            UPBi+1 =  UPBi × (1 + C)  - PMT

这儿PMTPayment)就是(固定的)月付,C就是每月利率。这公式很容易理解,上月剩余金额,到这个月底,就要付利息,再减去付款,就是这个月剩余金额。所以如果一切正常,这序列就类似上一篇中的20年“房贷”,你自己就可以计算,当然存在计算机里的数字,是实际数字,而不是算出来的。

 

            算出的数字和实际数字,会有什么区别呢?可能有上一篇中说过的部分提前付款(Curtailment),你不能想当然认为没有,不过我们这儿不讨论,就假定没有。比较常见的有拖欠(DelinquencyDELQ),到时间贷款公司没收到支票。人非圣贤,偶然失误总是有的,所以一般要连续两次没付你的信用评估(FICO)才会受影响。有时候你忘了又想起来,或者因为种种原因耽搁了几天,打电话给贷款公司,偶然一次通融的可能性也是有的。但数据部门没收到钱就是没收到,只能把实际数字记录下来。下面给个假想的DELQ的例子,30万贷款,15年期限,年利6%,月付2,531.57

 

Month LPI 实际剩余金额 修复后金额
10 10 289,449.07 289,449.07
11 10 289,449.07 288,364.75
12 10 289,449.07 287,275.00
13 13 286,179.81 286,179.81
14 14 285,079.14 285,079.14
15 283,972.96
16 16 262,861.26 282,861.26
17 20 278,358.57 281,743.99
18 20 278,358.57 280,621.14
19 20 278,358.57 279,492.68
20 20 278,358.57 278,358.57
21 21 277,218.80 277,218.80

 

    这张表中,屋主1112两个月没寄支票,到第13个月把欠帐全部付清,利息当然逃不了,想来还有罚款。第15个月由于种种原因,没有数据。17-19月是另一种情况,我们下面会讨论。这儿第二列LPILast Principle Installment)是你最后一次付的本金的月份,如果你每个月按时付钱这个数字就和第一列完全相同。这个例子中屋主最后一次付款是第10个月,以后两个月种种原因没有付,所以这个数字就保持不变,直到他第13个月一笔付清才恢复正常。

 

        这张表中的数据基本正确,只有第15个月没有数据是错的,111217-19尽管看上去有些不对劲,但从数据角度来说,并无错误,它们忠实记录了实际发生的现金流动情况。即使有错的第15个月,你也不能在原始数据中修改。这些没有错的数据,你必须清理以后才能用来建立模型。第一,模型是为投资人服务的,屋主没有付,按照这一行的行规,债劵投资人还是要到时候拿钱,这钱就只能由债劵的保险机构垫支,所以模型及某些报表用的数据必须是“假定他付了。。。”另一个原因是纯粹技术性的。我们在第9篇《四两拨千斤》中计算存活率r,存活率当然不能大于1。但把这些UPB代进那儿的公式第1112r就会大于1,这是不允许的,读者可自己验证。

 

            修正这些数据(1112),用肉眼当然很容易,我们需要用程序来修正。大致思路是考察第一列(Month)和第二列LPI的差别。如果两者相同,什么都不用干。如果后者比前者少K个月,就把前面关于UPB的计算重复K次。程序见下面“保险机构垫支”。你也可以不用循环,用公式直接做。但K一般不大,用幂函数CPU要多得多(参见第6篇《不厌其“烦”》。这些并没有错的数据必须经过这番修正,模型才能使用。

 

            现在来看第15个月缺掉的UPB。这种“缺”有两种可能,一是干脆没有记录,即少了一行,另一个是有记录,但是是个空白。不管哪一种,我们都要把正确数值填进去。为了减少麻烦,我的程序读数据时就把空白数据扔掉了。当然这个断层两面的LPI都可能不对,所以先要用上面的那段程序测试以后才能做这一步,现在可以假定上下的LPI都已修正过。思路是用上面那个月的UPB用公式把缺掉的月份算出来再填进去。下面的Lag函数是SAS的,其他语言自己想办法,应该不难。程序见下面“填补断层”。中间缺了K-1个月,输出K次是因为断层下端的原有的那条正确数据也要输出。

 

            17个月,好像屋主一下子付了3个月的钱,所以LPI一下子跳到了20。果然,下面3个月UPBLPI就没变过。这种情况,我在公司工作了好多年以后才搞明白。有钱人要去欧洲度长假,或者乘游轮出游。每个月寄信回来付房贷很不方便,而且也很危险,一不小心就会过期限。于是他们就开3张支票,同时再写一封短信,告诉贷款公司这是第171819  三个月的付款。所以反映在这张表格上,就是第17个月的LPI一下子从上个月的16跳到19。当然出现拖欠的经济拮据家庭是不可能去欧洲度假的,这儿放在一起只是为了叙述方便。这种情况的解决方法和第一段程序几乎相同,只是以前要减掉,现在要加上去。这段程序也必须在修复断层的程序前执行。程序见下面“有人提前付款”。

 

            我把三段程序按执行次序放一起如下,修正后的数据放在上面表格最后一列。

 

K = Month - LPI;

if K > 0 then do i = 1 to K; *** 保险机构垫支

            UPB = UPB * (1 + C) - PMT;

            end;

else if K < 0 then do i = 1 to -K; *** 有人提前付款

            UPB = (UPB + PMT) / (1 + C);

            end;

Lag_Date = lag(Month); *** 填补断层

Lag_UPB = lag(UPB);

K = Month - Lag_Month;

if K = 1 then output;

else do;

            UPB = Lag_UPB;

            do i = 1to K;

                        UPB = UPB * (1 + C) - PMT;

                        Month = Month + 1;

                        LPI = Month;

                        output;

                        end;

            end;

 

            有钱人因休假提前支付若干个月和前面所说勤俭持家人士有了多余的钱就还房贷(Curtailment)是不一样的。前者没使你房贷的终止日期提前,他1819两个月就不用付了,他这么做损失了些利息的利息。在上面的例子里,第18个月早付了一个月,第19个月早付了两个月,一共是大约2,500三个月的利息,有钱去欧洲度长假的不在乎这点小钱。而后者下一个月的房贷照付不误,短期压力一点没有减少。这样做可以使房贷终结日期提前,不是损失利息,还可以节约可观的利息(参看《假“公”济私》)。上面说前者必须写封短信,支票也以分开为妥,如果你不加说明或没讲清楚,贷款公司一律按后者处理,表中的LPI和实际月份还是一样,1819两个月就算拖欠了。。

 

        时间序列的数据还会有其他毛病,不一定是错误,你必须尽可能修正。但是无法修正的还是有不少,一般不外两个原因,一是根本不知道它怎么错的,也就无法猜测什么是对的。二是技术原因无法修正。曾有外行人问我为什么某个错误不能修正,我想到一个极妙的例子。Unix 有一个指令“diff",会告诉你两个文件AB有什么不同。有时A多了一行,有时B多了一行,有时一个句子里文件A多了几个单字等等。不管怎么样,两个文件总得有很大程度的相似。现在把美国的《独立宣言》和Clinton在就职典礼上的演说来“diff"一下,你觉得会怎么样。依此类推,如果把上面表中每一行的UPB都乘个随机数,我看你怎么修正,这下终于没人多嘴了。

浏览(1179) (0) 评论(0)
发表评论
我的名片
0+1
注册日期: 2009-08-01
访问总量: 649,571 次
点击查看我的个人资料
Calendar
最新发布
· 商人的智慧
· 在这儿,没有知遇之恩
· 三强韩赵魏,九章勾股弦
· 给电动车泼点冷水
· 信用卡的保护程序
· Hogan 州长
· 部分大于整体
分类目录
【难题】
· “难题”(3)-- 意外的惊喜(解答
· “难题”(3)-- 意外的惊喜
· “难题”(2) -- 鸡还是蛋 (解答
· “难题”(2)-- 鸡还是蛋
· “难题”(1)-- “简单”的极限题(
· “难题”(1)-- “简单”的极限题
【奇葩总统】
· 奇葩总统(1)- 股票总统
【最强大脑】
· 最强大脑 -- 色块迷踪(续)
· 最强大脑 -- 色块迷踪
· 最强大脑 -- 复活
· 最强大脑 -- 迷走点线
· 最强大脑 -- 珍稀足迹
· 最强大脑 -- 龟文古迹
· 最强大脑 -- 知己不知彼
· 最强大脑 -- 数字谜盘
· 最强大脑 -- 入场式
【书摘】
· 《华尔街数学》书摘 -- 暗示的力
· 《华尔街数学》书摘 -- 饮水不忘
· 《华尔街数学》书摘 -- 书缘
· 华尔街数学 -- 我的数学人生
【桥牌“外交”】
· 桥牌“外交”-- H先生
· 桥牌“外交”-- C先生
· 桥牌“外交”-- R先生
· 桥牌“外交”-- 引子
【脑筋不用急转弯 -- 续二】
· 24史
· 科学家的思考
· 朝四暮三
· 纸上谈兵?
· 为什么床铺死都不公布税表
· 质疑测量金字塔高度
· 如何用数学手段消除循环赛假球
· 如何尽快在大学新生中找出乙肝患
【我的大学 -- 续一】
· 太太太感谢您了!
· 饮水不忘掘井人
· 我的复旦梦
· 世界读书日
· 暗示的力量(2)
· 苏步青大师
· 久有凌云志,重翻几何书
· 人名不译
· 生成函数 -- 杀牛的鸡刀
· 欧拉定理的证明
【人间 -- 续二】
· 社区的地球日
· 淡泊天涯
· 源于生活,高于生活
· 得理不饶航空公司
· 我几乎撒谎 -- 与大家共勉
· "垃圾“市长
· 捐款的烦恼
【脑筋不用急转弯 -- 续一】
· 从统计学看国人的冷漠
· 一波四折
· 考考大家的想象力 (附“答案”)
· 毒酒和老鼠 -- 据 KM 说是 GS 的
【往事越千年 -- 续一】
· 昆仑关大捷和《血染的风采》
· 歌剧演员和歌唱演员
· 我的超级记性
· We are doing the impossible
· 上海人的体育辉煌
· 大浪淘沙
· 我为革命下厨房
【Alaska 之旅】
· Alaska 之旅(3)--前人栽树,后
· Alaska 之旅(2)--一国两制害死
· Alaska 之旅(1)-- 终于露馅
【莫谈国是】
· 重贴领导指示
· Hooter
· 我为“86万”叫好
· 领导指示。。。
· 重要的一年
· 随机抽查
· 三位知识分子的遗产
· 为公布100名红色通缉人员叫好
· 马英九和Clinton
· 共产党笔下的国民党民主
【(不是我的)童年 -- 续一】
· 小朋友的高见
· 这次不扣钱
· 女儿的“科研成果”
· 一家三口数学竞赛,我居然只拿了
· 活学活用
· Email from Santa
· “著名”泥塑艺术家
· 女儿的幽默
· 小狗不会告状
· 美国校车补遗
【脑筋不用急转弯】
· 气死数学家
· 好人坏人
· 抽水马桶史话 -- 山寨版
· 前几天,我打了一幅臭牌
· 911 能减少贸易赤字?
【人间 -- 续一】
· 苦不能苦孩子,穷不能穷教育
· 酒文化
· 买车记
· 电影怀旧
· 烧菜“经验”点滴
· 一次难忘的音乐会
【无题】
· Waterpick
· 《蓝色天梦》点评
· Obama Care 的报税 – 寻求帮助
· 钢琴硕士和博士
· 赫鲁晓夫令人尊敬的一件往事
· 打桥牌和上厕所
· 聪明的车夫
· No School !
· 一段不错的绕口令
· Everyday is weekend
【(不是我的)童年 -- 续一】
【科普讲座 -- 续二】
· 给电动车泼点冷水
· 信用卡的保护程序
· 自动驾驶
· “内行”的“外行”人之所见
· 精算师的风采
· 我说文理相通
· 人名不译
· 100万亿倍?
· 洪水河随想
· 伪科学
【科普讲座 -- 续一】
· 一次真正的忽悠 -- 双周房贷
· 论“房贷忽悠”之忽悠
【科普讲座】
· “不是数学家”的烦恼
· “永久”邮票
· 制度优势
· 又闻蝉鸣
· 独行侠张益唐 -- 转载自戴世强教
· 做一回事后诸葛亮
· 半路上杀出个程咬金
· 考试和做研究(4) 迟到创造了历
· 考试和做研究(3)桥牌博士论文
· 考试和做研究(2)
【华尔街的数学】
· 《华尔街数学》出版以后。。。
· 华尔街的数学(结束篇) 光辉的
· 华尔街的数学(19) 锻羽而归
· 华尔街的数学(18) 什锦拼盘
· 华尔街的数学(17) 橘子和苹果
· 华尔街的数学(16)苹果和橘子
· 华尔街的数学(15)“标准”手册
· 华尔街的数学(14)“涂改”数据
· 华尔街的数学(13)假“公”济私
· 华尔街的数学(12) 第三者的模
【街谈巷议】
· 商人的智慧
· 在这儿,没有知遇之恩
· Hogan 州长
· 部分大于整体
· 白草的战争逻辑
· 米饭里的沙子
· 吃力不讨好
· 丁惠民之问
· “好东西”?
· 贪官的智慧
【饮食文化】
· 小笼包史话
· 母亲的八宝辣酱
· 倚老卖老
· 搭便车
· 江浙点心和统一大业
· 糖藕 (非食谱)
· 蹄筋(非食谱)
【我的大学】
· 三强韩赵魏,九章勾股弦
· 惨烈的考试
· 重刑监狱犯人的数学难题
· 鱼骨头的故事
· 数学也有假冒伪劣
· 无名小卒和Nash大师的一段“交往”
· 别开生面的面试
· 我的第一次 0 + 1
· 大师的风采
· 桥牌博士
【人间】
· 幽默的老板
· 买车记
· 个人自扫邻家雪
· 不说英语的留学生
· 多亏没有简体字
【(不是我的)童年】
· 女儿“学”元素周期表
· 一鸣惊人
· 布谷鸟又叫了
· 谁是老板?
· Potty 交响曲
· "重赏"之下, 必有&quo
【往事越千年】
· 瑪德琳饼干的故事
· 蒋经国的伟大
· 版权所有!!!
· 一身真伪有谁知
· 太湖美
· 人间自有真情在
· 蒋介石为胡适写的挽联
· 怀念胡耀邦
· 我家的“阿庆嫂”
· 我的英语老师
存档目录
2024-04-13 - 2024-04-17
2024-03-08 - 2024-03-08
2024-02-05 - 2024-02-11
2023-11-09 - 2023-11-09
2023-10-04 - 2023-10-18
2023-08-06 - 2023-08-06
2023-07-01 - 2023-07-28
2023-06-27 - 2023-06-27
2023-05-01 - 2023-05-21
2023-04-09 - 2023-04-23
2023-01-09 - 2023-01-22
2022-12-17 - 2022-12-17
2022-11-09 - 2022-11-19
2022-10-16 - 2022-10-21
2022-09-01 - 2022-09-10
2022-07-14 - 2022-07-25
2022-03-29 - 2022-03-29
2021-12-27 - 2021-12-27
2021-10-30 - 2021-10-30
2021-08-10 - 2021-08-10
2021-07-23 - 2021-07-23
2021-06-07 - 2021-06-28
2021-04-05 - 2021-04-05
2021-03-05 - 2021-03-10
2020-12-03 - 2020-12-30
2020-11-01 - 2020-11-26
2020-10-05 - 2020-10-24
2020-09-03 - 2020-09-20
2020-08-14 - 2020-08-31
2020-07-05 - 2020-07-24
2020-06-08 - 2020-06-08
2020-05-13 - 2020-05-27
2020-04-02 - 2020-04-30
2020-03-05 - 2020-03-26
2020-02-23 - 2020-02-23
2019-12-31 - 2019-12-31
2019-11-11 - 2019-11-24
2019-10-14 - 2019-10-18
2019-09-13 - 2019-09-24
2019-06-10 - 2019-06-10
2019-05-28 - 2019-05-28
2019-04-03 - 2019-04-28
2019-03-01 - 2019-03-14
2019-02-08 - 2019-02-23
2019-01-22 - 2019-01-28
2018-11-06 - 2018-11-08
2018-10-21 - 2018-10-21
2018-09-04 - 2018-09-28
2016-08-11 - 2016-08-11
2015-11-08 - 2015-11-22
2015-09-05 - 2015-09-27
2015-07-26 - 2015-07-27
2015-06-14 - 2015-06-14
2015-05-25 - 2015-05-30
2015-04-11 - 2015-04-11
2015-03-01 - 2015-03-02
2015-02-28 - 2015-02-28
2014-05-10 - 2014-05-10
2014-04-20 - 2014-04-20
2014-02-01 - 2014-02-22
2013-11-23 - 2013-11-23
2013-10-13 - 2013-10-19
2013-09-06 - 2013-09-14
2013-08-11 - 2013-08-31
2013-07-13 - 2013-07-23
2013-06-09 - 2013-06-09
2013-04-17 - 2013-04-21
2013-03-02 - 2013-03-02
2013-02-09 - 2013-02-23
2012-12-01 - 2012-12-29
2012-11-19 - 2012-11-28
2012-10-21 - 2012-10-21
2012-09-21 - 2012-09-21
2012-08-01 - 2012-08-03
2012-04-14 - 2012-04-14
2012-03-05 - 2012-03-05
2012-02-25 - 2012-02-26
2012-01-14 - 2012-01-28
2011-12-27 - 2011-12-27
2011-11-06 - 2011-11-20
2011-10-21 - 2011-10-29
2011-09-26 - 2011-09-26
2011-08-25 - 2011-08-27
2011-07-31 - 2011-07-31
2011-05-21 - 2011-05-21
2011-04-09 - 2011-04-21
2011-03-12 - 2011-03-12
2011-01-22 - 2011-01-31
2010-11-01 - 2010-11-10
2010-10-09 - 2010-10-12
2010-09-26 - 2010-09-30
2010-08-06 - 2010-08-28
2010-07-12 - 2010-07-25
2010-06-05 - 2010-06-19
2010-05-01 - 2010-05-30
2010-04-02 - 2010-04-24
2010-03-05 - 2010-03-26
2010-02-05 - 2010-02-26
2010-01-05 - 2010-01-27
2009-12-04 - 2009-12-29
2009-11-06 - 2009-11-27
2009-10-02 - 2009-10-30
2009-09-04 - 2009-09-25
2009-08-01 - 2009-08-30
 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2024. CyberMedia Network /Creaders.NET. All Rights Reserved.