设万维读者为首页 万维读者网 -- 全球华人的精神家园 广告服务 联系我们 关于万维
 
首  页 新  闻 视  频 博  客 论  坛 分类广告 购  物
搜索>> 发表日志 控制面板 个人相册 给我留言
帮助 退出
 
0+1  
有感而发, 可多可少  
我的名片
0+1
注册日期: 2009-08-01
访问总量: 830,866 次
点击查看我的个人资料
Calendar
我的公告栏
最新发布
· 爷爷的爷爷
· 我和世界难题同龄
· 暗示的力量
· 太太的高见
· 高手在民间!
· 当书中出现错误
· 苏埃友谊万岁!
友好链接
分类目录
【埃及-约旦】
· 苏埃友谊万岁!
· Made in China
· 古埃及 – 科学和伪科学之集大成
· 伪科学比没有科学更可怕
· 埃及导游贾宝玉
· 真真假假的阿部辛贝勒神庙
· 为什么阿斯旺的酒店都在尼罗河东
【美国政治】
· 管的太宽了!
· 活该!
· 都不是好东西!
· 大厦将倾,独木能支
· 封口费造假帐合算吗?
· Hogan 州长
· “好东西”?
· 另类的清廉
· 另类的贪腐
· 都不是好东西
【2024奥运】
· 妄议奥运(二)
· 妄议奥运(一)
· 她又来了!
· 小国的奥运金牌
· 这个冠军不孤独
· 既生瑜,何生亮
· 我看着他打破世界记录
· 祝贺美国终于“第一名”
· 二比二
· 全红婵和周洋
【难题】
· “难题”(3)-- 意外的惊喜(解
· “难题”(3)-- 意外的惊喜
· “难题”(2) -- 鸡还是蛋 (解
· “难题”(2)-- 鸡还是蛋
· “难题”(1)-- “简单”的极限
· “难题”(1)-- “简单”的极限
【奇葩总统】
· 奇葩总统(1)- 股票总统
【最强大脑】
· 最强大脑 -- 色块迷踪(续)
· 最强大脑 -- 色块迷踪
· 最强大脑 -- 复活
· 最强大脑 -- 迷走点线
· 最强大脑 -- 珍稀足迹
· 最强大脑 -- 龟文古迹
· 最强大脑 -- 知己不知彼
· 最强大脑 -- 数字谜盘
· 最强大脑 -- 入场式
【书摘】
· 《华尔街数学》书摘 -- 暗示的力
· 《华尔街数学》书摘 -- 饮水不忘
· 《华尔街数学》书摘 -- 书缘
· 华尔街数学 -- 我的数学人生
【桥牌“外交”】
· 桥牌“外交”-- H先生
· 桥牌“外交”-- C先生
· 桥牌“外交”-- R先生
· 桥牌“外交”-- 引子
【脑筋不用急转弯 -- 续二】
· 24史
· 科学家的思考
· 朝四暮三
· 纸上谈兵?
· 为什么床铺死都不公布税表
· 质疑测量金字塔高度
· 如何用数学手段消除循环赛假球
· 如何尽快在大学新生中找出乙肝患
【我的大学 -- 续一】
· 太太太感谢您了!
· 饮水不忘掘井人
· 我的复旦梦
· 世界读书日
· 暗示的力量(2)
· 苏步青大师
· 久有凌云志,重翻几何书
· 人名不译
· 生成函数 -- 杀牛的鸡刀
· 欧拉定理的证明
【人间 -- 续二】
· 爷爷的爷爷
· 战俘 – 一个沉重的话题
· 我自认为相当理智和客观
· 一叶知秋
· 锦上添花和雪中送炭
· 异曲同工(三则)
· 社区的地球日
· 淡泊天涯
· 源于生活,高于生活
· 得理不饶航空公司
【脑筋不用急转弯 -- 续一】
· 从统计学看国人的冷漠
· 一波四折
· 考考大家的想象力 (附“答案”)
· 毒酒和老鼠 -- 据 KM 说是 GS 的
【往事越千年 -- 续一】
· 昆仑关大捷和《血染的风采》
· 歌剧演员和歌唱演员
· 我的超级记性
· We are doing the impossible
· 上海人的体育辉煌
· 大浪淘沙
· 我为革命下厨房
【Alaska 之旅】
· Alaska 之旅(3)--前人栽树,后
· Alaska 之旅(2)--一国两制害死
· Alaska 之旅(1)-- 终于露馅
【莫谈国是】
· 打死卞校长需要老毛圣旨吗?
· 蛮不讲理知“劲草”
· 重贴领导指示
· Hooter
· 我为“86万”叫好
· 领导指示。。。
· 重要的一年
· 随机抽查
· 三位知识分子的遗产
· 为公布100名红色通缉人员叫好
【(不是我的)童年 -- 续一】
· 小朋友的高见
· 这次不扣钱
· 女儿的“科研成果”
· 一家三口数学竞赛,我居然只拿了
· 活学活用
· Email from Santa
· “著名”泥塑艺术家
· 女儿的幽默
· 小狗不会告状
· 美国校车补遗
【脑筋不用急转弯】
· 气死数学家
· 好人坏人
· 抽水马桶史话 -- 山寨版
· 前几天,我打了一幅臭牌
· 911 能减少贸易赤字?
【人间 -- 续一】
· 桥牌中的运气(续)
· 向桃园机场致敬!
· 好记性不如烂笔头?
· 苦不能苦孩子,穷不能穷教育
· 酒文化
· 买车记
· 电影怀旧
· 烧菜“经验”点滴
· 一次难忘的音乐会
【无题】
· Waterpick
· 《蓝色天梦》点评
· Obama Care 的报税 – 寻求帮助
· 钢琴硕士和博士
· 赫鲁晓夫令人尊敬的一件往事
· 打桥牌和上厕所
· 聪明的车夫
· No School !
· 一段不错的绕口令
· Everyday is weekend
【(不是我的)童年 -- 续一】
【科普讲座 -- 续二】
· 统计样本的笑话
· 欧几里得21世纪的学生
· GDP和幸福指数
· 给电动车泼点冷水
· 信用卡的保护程序
· 自动驾驶
· “内行”的“外行”人之所见
· 精算师的风采
· 我说文理相通
· 人名不译
【科普讲座 -- 续一】
· 一次真正的忽悠 -- 双周房贷
· 论“房贷忽悠”之忽悠
【科普讲座】
· “不是数学家”的烦恼
· “永久”邮票
· 制度优势
· 又闻蝉鸣
· 独行侠张益唐 -- 转载自戴世强教
· 做一回事后诸葛亮
· 半路上杀出个程咬金
· 考试和做研究(4) 迟到创造了历
· 考试和做研究(3)桥牌博士论文
· 考试和做研究(2)
【华尔街的数学】
· 《华尔街数学》出版以后。。。
· 华尔街的数学(结束篇) 光辉的
· 华尔街的数学(19) 锻羽而归
· 华尔街的数学(18) 什锦拼盘
· 华尔街的数学(17) 橘子和苹果
· 华尔街的数学(16)苹果和橘子
· 华尔街的数学(15)“标准”手册
· 华尔街的数学(14)“涂改”数据
· 华尔街的数学(13)假“公”济私
· 华尔街的数学(12) 第三者的模
【街谈巷议】
· 太太的高见
· 高手在民间!
· 广州地铁的闹剧
· 下有对策,上无政策?
· 拼死吃河豚
· 商人的智慧
· 在这儿,没有知遇之恩
· 部分大于整体
· 白草的战争逻辑
· 米饭里的沙子
【饮食文化】
· 小笼包史话
· 母亲的八宝辣酱
· 倚老卖老
· 搭便车
· 江浙点心和统一大业
· 糖藕 (非食谱)
· 蹄筋(非食谱)
【我的大学】
· 我和世界难题同龄
· 暗示的力量
· 三强韩赵魏,九章勾股弦
· 惨烈的考试
· 重刑监狱犯人的数学难题
· 鱼骨头的故事
· 数学也有假冒伪劣
· 无名小卒和Nash大师的一段“交往
· 别开生面的面试
· 我的第一次 0 + 1
【人间】
· 当书中出现错误
· 你想不到的义工
· 丁惠民先生千古!
· 卡特总统生日快乐!
· 幽默的老板
· 买车记
· 个人自扫邻家雪
· 不说英语的留学生
· 多亏没有简体字
【(不是我的)童年】
· 女儿“学”元素周期表
· 一鸣惊人
· 布谷鸟又叫了
· 谁是老板?
· Potty 交响曲
· "重赏"之下, 必有&quo
【往事越千年】
· 瑪德琳饼干的故事
· 蒋经国的伟大
· 版权所有!!!
· 一身真伪有谁知
· 太湖美
· 人间自有真情在
· 蒋介石为胡适写的挽联
· 怀念胡耀邦
· 我家的“阿庆嫂”
· 我的英语老师
存档目录
01/01/2025 - 01/31/2025
12/01/2024 - 12/31/2024
11/01/2024 - 11/30/2024
10/01/2024 - 10/31/2024
09/01/2024 - 09/30/2024
08/01/2024 - 08/31/2024
07/01/2024 - 07/31/2024
06/01/2024 - 06/30/2024
05/01/2024 - 05/31/2024
04/01/2024 - 04/30/2024
03/01/2024 - 03/31/2024
02/01/2024 - 02/29/2024
11/01/2023 - 11/30/2023
10/01/2023 - 10/31/2023
08/01/2023 - 08/31/2023
07/01/2023 - 07/31/2023
06/01/2023 - 06/30/2023
05/01/2023 - 05/31/2023
04/01/2023 - 04/30/2023
01/01/2023 - 01/31/2023
12/01/2022 - 12/31/2022
11/01/2022 - 11/30/2022
10/01/2022 - 10/31/2022
09/01/2022 - 09/30/2022
07/01/2022 - 07/31/2022
03/01/2022 - 03/31/2022
12/01/2021 - 12/31/2021
10/01/2021 - 10/31/2021
08/01/2021 - 08/31/2021
07/01/2021 - 07/31/2021
06/01/2021 - 06/30/2021
04/01/2021 - 04/30/2021
03/01/2021 - 03/31/2021
12/01/2020 - 12/31/2020
11/01/2020 - 11/30/2020
10/01/2020 - 10/31/2020
09/01/2020 - 09/30/2020
08/01/2020 - 08/31/2020
07/01/2020 - 07/31/2020
06/01/2020 - 06/30/2020
05/01/2020 - 05/31/2020
04/01/2020 - 04/30/2020
03/01/2020 - 03/31/2020
02/01/2020 - 02/29/2020
12/01/2019 - 12/31/2019
11/01/2019 - 11/30/2019
10/01/2019 - 10/31/2019
09/01/2019 - 09/30/2019
06/01/2019 - 06/30/2019
05/01/2019 - 05/31/2019
04/01/2019 - 04/30/2019
03/01/2019 - 03/31/2019
02/01/2019 - 02/28/2019
01/01/2019 - 01/31/2019
11/01/2018 - 11/30/2018
10/01/2018 - 10/31/2018
09/01/2018 - 09/30/2018
08/01/2016 - 08/31/2016
11/01/2015 - 11/30/2015
09/01/2015 - 09/30/2015
07/01/2015 - 07/31/2015
06/01/2015 - 06/30/2015
05/01/2015 - 05/31/2015
04/01/2015 - 04/30/2015
03/01/2015 - 03/31/2015
02/01/2015 - 02/28/2015
05/01/2014 - 05/31/2014
04/01/2014 - 04/30/2014
02/01/2014 - 02/28/2014
11/01/2013 - 11/30/2013
10/01/2013 - 10/31/2013
09/01/2013 - 09/30/2013
08/01/2013 - 08/31/2013
07/01/2013 - 07/31/2013
06/01/2013 - 06/30/2013
04/01/2013 - 04/30/2013
03/01/2013 - 03/31/2013
02/01/2013 - 02/28/2013
12/01/2012 - 12/31/2012
11/01/2012 - 11/30/2012
10/01/2012 - 10/31/2012
09/01/2012 - 09/30/2012
08/01/2012 - 08/31/2012
04/01/2012 - 04/30/2012
03/01/2012 - 03/31/2012
02/01/2012 - 02/29/2012
01/01/2012 - 01/31/2012
12/01/2011 - 12/31/2011
11/01/2011 - 11/30/2011
10/01/2011 - 10/31/2011
09/01/2011 - 09/30/2011
08/01/2011 - 08/31/2011
07/01/2011 - 07/31/2011
05/01/2011 - 05/31/2011
04/01/2011 - 04/30/2011
03/01/2011 - 03/31/2011
01/01/2011 - 01/31/2011
11/01/2010 - 11/30/2010
10/01/2010 - 10/31/2010
09/01/2010 - 09/30/2010
08/01/2010 - 08/31/2010
07/01/2010 - 07/31/2010
06/01/2010 - 06/30/2010
05/01/2010 - 05/31/2010
04/01/2010 - 04/30/2010
03/01/2010 - 03/31/2010
02/01/2010 - 02/28/2010
01/01/2010 - 01/31/2010
12/01/2009 - 12/31/2009
11/01/2009 - 11/30/2009
10/01/2009 - 10/31/2009
09/01/2009 - 09/30/2009
08/01/2009 - 08/31/2009
发表评论
作者:
用户名: 密码: 您还不是博客/论坛用户?现在就注册!
     
评论:
华尔街的数学(18) 什锦拼盘
   

            看到这儿,大家可能猜到,快黔驴技穷,没啥可写了。我在《前言》提到,有些东西非常漂亮,但不容易写出来。但其中的某一些,简单提一下还是可以的。

 

A. 逐月平均

            很多人,分成许多组。有两个数据文件。一个是静态的资讯,姓名、出生年月,组别等等。另一个是逐月变化的,收入、医疗费、食品开支等等。现在要求每个组每个月的各项平均,年龄、收入等等。我们用SAS,从技术上讲没什么困难。先把静态文件按姓名排序(Sorting),再把动态文件也按姓名排序,然后作所谓的汇集(Merge)。把汇集后的大文件按组别和月份排序,最后按组按月求平均。这些都有现成的软件包,指令加在一起大概不超过20行。问题是这些文件都很大,这个所谓大文件往往有100-200G,最后文件可能是20-30G,也可能是40-50G。最大的麻烦出在排序,要对一个文件排序,我们需要至少3.5倍的硬盘空间(包括自己)。开始两个文件还可以,要花很多时间,但还可以做。对大文件排序实际上是不可能的。即使你是Unix专家,使用好几个服务器,时间不说,内存(Memory)也容纳不了。所以公司以前都是用抽样的方法,5%10%,不一而足。后来我把这个问题解决了,使用了SAS中称为Look  up Table 的技术。不但不用抽样,100%的数据比抽样还要快。如果一个很大的文件有很多人,几百万或几千万,现在要从里面找出几十或几百人,用的就是这种技术。知道那种用法的人还是不少的,但知道如何运用在这儿的人就不多了,至少我们公司就我一人。

 

B. 皮包公司

            我在公司做过一个项目,完全讲清楚不容易,或许也不妥当,但和下面所说的例子却是同构的。美国的能源“巨头”Enron 轰然倒闭,这儿用引号,是说它的主要业务不是生产能源,甚至也不是买卖能源,而是买卖能源期货,比如明年8月份以XX分一度的价钱提供你一百万度电。用贬义词,就是做买空卖空,空手套白狼的。他们把公司搞得非常复杂,以至于亏损了一大堆还没人察觉。后来,美国负责金融产品编号注册的Cusip管理局还专门设计了一些新的编号,用于追踪这类公司复杂的隶属关系。现在假定有许多制造公司,其中的许多又联合起来注册了许多皮包公司,比如公司A拿出自己30%的资本,B20%C15%,又成立一家公司。注意我特意使三个数目相加不为1,以免混淆。产品、产量、产值、盈利和以前一模一样,但盈利(或亏损,下面不再重复)的分配就变得很复杂。这些皮包公司还可以“出资”若干再成立皮包公司。现在给你两个数据文件,一个是这些非皮包公司的实际盈利和资本,另一个就是这些公司的隶属关系。第一个文件有两列,无数行。第一列是(非皮包)公司名称,第二列是盈利数额。第二个文件有三列,第一列为皮包公司名称,第二列为下属公司,第三列是百分比,,第三列是这家下属公司拿出自己资本的百分之几来注册皮包公司。如果一家皮包公司由三家公司组成,这家公司就会在第一列出现三次。非皮包公司是最基层的,自己拥有自己,所以不会出现在第一列。下属公司可以是皮包的,也可以不是。皮包公司如果不在最上层,就会在第一第二列都出现。现在需要利用这两个文件求出所有皮包公司的盈利。我做的实际情况,“制造公司”有几十万家,“皮包公司”有一万多,最为复杂的有42层。这里还有许多一开始很容易忽略的途径(Scenario)。A和别人合资成立A1B和别人合资成立B1A1B1又合资成立CAB还可能在C有直接的股份,两者也有可能在不相干的D另有投资。但环状结构是不可能的,C不可能和别人合资成立A,因为AC先成立,爱因斯坦 的相对论也改变不了这一点。这程序需要思考非常严密,另外还需要一种专门的数据汇集技术。数据汇集一般有一对一,多对一,或一对多,这儿要用到多对多的技术。为简化问题,我们假定这些皮包公司是同时成立的,资本数额就是那时的资本。实际情况更为复杂,你必须有非皮包公司资本额的时间序列。

 

C. 评估模型

            30多个产品由7-8个模型描述,有时候同一模型用不同系数描写不同产品,比如y = ax + b,不同产品a b可以不一样,我们也认为是一个模型。上级要我对这30多个产品的模型适用情况来个评估,好、不好、一般等等。最后是这样解决的,30多个产品用的是同样的方法。先把所有房贷严格按照建立模型时的分组方法分组,计算出每个月的Prepayment的理论值,然后把每个月的理论和实际数值逐月平均。因为理论和实际数值由同样的数据产生,所以这次没有1617两篇中苹果橘子的问题。我们现在对理论实际的每月平均值求相关系数(Correlation),然后考察两个数字,平均误差和相关系数。最后我们把结果按照两者的状况分成四组:好好、坏好,好坏,坏坏。第一组保留,第四组换模型。大部分情况下,第二组乘个常数就可以了。第三组取舍需要逐个分析,扔掉的占多数。这种做法似乎过于简单化,为什么不看逐月平均以前的相关系数(平均值与这一步无关)。模型两个最重要的因素是利率和房贷的年龄,这两个变量是每个月都在变化的。一个坏的模型可以使实际和预测在某一两个月很接近,但不可能持之以恒。我们检测的时间范围,少则2-3年,多则4-5年,如果每个月,或大多数月份都很接近,就说明模型在很大范围内,或最常见的范围内都很准确,坏模型是做不到这一点的。这儿仅两个数字,就几乎提供了作决定需要的所有信息。如果比较每组每个月的理论和实际数值的差别,又是死路一条。作出正确决定需要的数字越少,这个方法就越是有价值。有些人认为这类信息多多益善,实际上是错的。在这信息爆炸时代,有经验的分析研究人员,就应该从浩如烟海的信息中,加以归纳,选出最重要的,或自己使用,或给领导作参考,或在小组会议或学术会议上与同行分享。对于当官的,这事有秘书或手下技术人员代劳,在我的情况,就是自己当好自己的秘书。

 

D. 逼上梁山

            公司为某一笔投资,从某公司购买数据。前面常说打包,这儿是100多包。这家公司的数据有两种版本,一种一年几千美元,一种是每月一万美元,公司买的是便宜货。数据是一模一样的,但是。。。贵的数据包装的整整齐齐,任何统计软件包就可马上输入,便宜的那种你就需要些想象力了。文件一开始是内容提要,结束是领导总结,中间的数据部分还要搞鬼。每一列都会有个名字(Heading),一般来说,人们只使用字母、数字、空格,最多再来点下滑线。这儿就热闹了,有问号,百分号,括弧,应有尽有。恶作剧还没结束,每个文件的列数有多有少,大家共有的有80多列(共有变量),另外有14列捣乱变量随机地穿插在100多个文件里。

            主管此事的是个中国人,他知道要解决这个问题的必要条件是一个人同时精通数据结构、SAS、和VBAExcel 的程序语言),似乎是非我莫属了,他就向我老板把我借了好几天。最后我是用VBA把这一堆乱麻整理成标准数据格式的。大致有四步,放在一个循环(Loop)中做,大循环中还有好多个小循环。

1)      找出内容提要的最后一行和领导总结的第一行,把这两部分删掉,然后把文件存下。他们总算没有坏到连这一点都不让你做到。

2)      把所有不规范的变量(包括那14个捣乱变量),赋予一个规范的名字,两者放在同一表格。然后在经过(1)清理过的文件一列列往下读,每读一个就去变量名表里寻找,找到后就把读到的那一列Heading用规范名字代替。现在假定都找到了。请注意每个文件的列数可能不一样。为使程序层次清楚,再存一次。

3)      把共有变量(即那14列之外)列成一表格,再把经过(2)清理的文件的Heading 逐列往下读,每读一个就去共有变量表中搜寻。一旦找到就把这一列(包括Heading)复制至另一空白Excel文件,找不到的显然属于14个变量中的一个,我们就去读文件Heading的下一列,直至读完。

4)      好像都完成了,但我比较仔细,假如那家公司把共有变量“提拔”一些变成捣乱变量随机穿插,这100多个文件的最后格式就会不一样。有些多几列,有些少几列。我们就要反过来,把共有变量表中的每个变量到100多个文件中都去找一遍,只要有一个文件中找不到就要出警示。

 

            "逼上梁山“中的(3)(4)两点合起来是数据处理中一种非常重要的技巧,就是保证两组数据完全相同。100多文件中的变量中属于公有变量的,我们要全部找出来。而所有的共有变量,我们要求在100多个文件中的每一个都能全部找到。象这样的例子,在我的工作中,不说每天,但可以说每星期都会见到,当然他们是以各种不同面貌出现的。曾经有一次,有个部门要我对某个产品做点分析。我问他们识别标志是什么,对方说这种产品的房贷都是从一家公司来的。我说这家公司又不是只做这一种产品。对方还没反应过来,我就用了下面的例子。有人问你向别人借了多少钱,你说你只向张先生一个人借,但是你怎么能确定张先生只把钱借给你一个人?

 
关于本站 | 广告服务 | 联系我们 | 招聘信息 | 网站导航 | 隐私保护
Copyright (C) 1998-2025. Creaders.NET. All Rights Reserved.