华尔街的数学（18）什锦拼盘-0+1-万维博客-万维读者网（电脑版）

设万维读者为首页

万维读者网 -- 全球华人的精神家园

广告服务

联系我们

关于万维

首　页

新　闻

视　频

博　客

论　坛

分类广告

购　物




0+1
有感而发, 可多可少
		https://blog.creaders.net/u/2664/ > 复制 > 收藏本页

网络日志正文

		华尔街的数学（18）什锦拼盘	2010-03-05 16:42:47

看到这儿，大家可能猜到，快黔驴技穷，没啥可写了。我在《前言》提到，有些东西非常漂亮，但不容易写出来。但其中的某一些，简单提一下还是可以的。

A. 逐月平均

很多人，分成许多组。有两个数据文件。一个是静态的资讯，姓名、出生年月，组别等等。另一个是逐月变化的，收入、医疗费、食品开支等等。现在要求每个组每个月的各项平均，年龄、收入等等。我们用SAS，从技术上讲没什么困难。先把静态文件按姓名排序（Sorting），再把动态文件也按姓名排序，然后作所谓的汇集（Merge）。把汇集后的大文件按组别和月份排序，最后按组按月求平均。这些都有现成的软件包，指令加在一起大概不超过20行。问题是这些文件都很大，这个所谓大文件往往有100-200G，最后文件可能是20-30G，也可能是40-50G。最大的麻烦出在排序，要对一个文件排序，我们需要至少3.5倍的硬盘空间（包括自己）。开始两个文件还可以，要花很多时间，但还可以做。对大文件排序实际上是不可能的。即使你是Unix专家，使用好几个服务器，时间不说，内存（Memory）也容纳不了。所以公司以前都是用抽样的方法，5%，10%，不一而足。后来我把这个问题解决了，使用了SAS中称为Look up Table 的技术。不但不用抽样，100%的数据比抽样还要快。如果一个很大的文件有很多人，几百万或几千万，现在要从里面找出几十或几百人，用的就是这种技术。知道那种用法的人还是不少的，但知道如何运用在这儿的人就不多了，至少我们公司就我一人。

B. 皮包公司

我在公司做过一个项目，完全讲清楚不容易，或许也不妥当，但和下面所说的例子却是同构的。美国的能源“巨头”Enron 轰然倒闭，这儿用引号，是说它的主要业务不是生产能源，甚至也不是买卖能源，而是买卖能源期货，比如明年8月份以XX分一度的价钱提供你一百万度电。用贬义词，就是做买空卖空，空手套白狼的。他们把公司搞得非常复杂，以至于亏损了一大堆还没人察觉。后来，美国负责金融产品编号注册的Cusip管理局还专门设计了一些新的编号，用于追踪这类公司复杂的隶属关系。现在假定有许多制造公司，其中的许多又联合起来注册了许多皮包公司，比如公司A拿出自己30%的资本，B20%，C15%，又成立一家公司。注意我特意使三个数目相加不为1，以免混淆。产品、产量、产值、盈利和以前一模一样，但盈利（或亏损，下面不再重复）的分配就变得很复杂。这些皮包公司还可以“出资”若干再成立皮包公司。现在给你两个数据文件，一个是这些非皮包公司的实际盈利和资本，另一个就是这些公司的隶属关系。第一个文件有两列，无数行。第一列是（非皮包）公司名称，第二列是盈利数额。第二个文件有三列，第一列为皮包公司名称，第二列为下属公司，第三列是百分比，，第三列是这家下属公司拿出自己资本的百分之几来注册皮包公司。如果一家皮包公司由三家公司组成，这家公司就会在第一列出现三次。非皮包公司是最基层的，自己拥有自己，所以不会出现在第一列。下属公司可以是皮包的，也可以不是。皮包公司如果不在最上层，就会在第一第二列都出现。现在需要利用这两个文件求出所有皮包公司的盈利。我做的实际情况，“制造公司”有几十万家，“皮包公司”有一万多，最为复杂的有42层。这里还有许多一开始很容易忽略的途径（Scenario）。A和别人合资成立A1，B和别人合资成立B1，A1和B1又合资成立C。A或B还可能在C有直接的股份，两者也有可能在不相干的D另有投资。但环状结构是不可能的，C不可能和别人合资成立A，因为A比C先成立，爱因斯坦的相对论也改变不了这一点。这程序需要思考非常严密，另外还需要一种专门的数据汇集技术。数据汇集一般有一对一，多对一，或一对多，这儿要用到多对多的技术。为简化问题，我们假定这些皮包公司是同时成立的，资本数额就是那时的资本。实际情况更为复杂，你必须有非皮包公司资本额的时间序列。

C. 评估模型

30多个产品由7-8个模型描述，有时候同一模型用不同系数描写不同产品，比如y = ax + b，不同产品a和 b可以不一样，我们也认为是一个模型。上级要我对这30多个产品的模型适用情况来个评估，好、不好、一般等等。最后是这样解决的，30多个产品用的是同样的方法。先把所有房贷严格按照建立模型时的分组方法分组，计算出每个月的Prepayment的理论值，然后把每个月的理论和实际数值逐月平均。因为理论和实际数值由同样的数据产生，所以这次没有16，17两篇中苹果橘子的问题。我们现在对理论实际的每月平均值求相关系数（Correlation），然后考察两个数字，平均误差和相关系数。最后我们把结果按照两者的状况分成四组：好好、坏好，好坏，坏坏。第一组保留，第四组换模型。大部分情况下，第二组乘个常数就可以了。第三组取舍需要逐个分析，扔掉的占多数。这种做法似乎过于简单化，为什么不看逐月平均以前的相关系数（平均值与这一步无关）。模型两个最重要的因素是利率和房贷的年龄，这两个变量是每个月都在变化的。一个坏的模型可以使实际和预测在某一两个月很接近，但不可能持之以恒。我们检测的时间范围，少则2-3年，多则4-5年，如果每个月，或大多数月份都很接近，就说明模型在很大范围内，或最常见的范围内都很准确，坏模型是做不到这一点的。这儿仅两个数字，就几乎提供了作决定需要的所有信息。如果比较每组每个月的理论和实际数值的差别，又是死路一条。作出正确决定需要的数字越少，这个方法就越是有价值。有些人认为这类信息多多益善，实际上是错的。在这信息爆炸时代，有经验的分析研究人员，就应该从浩如烟海的信息中，加以归纳，选出最重要的，或自己使用，或给领导作参考，或在小组会议或学术会议上与同行分享。对于当官的，这事有秘书或手下技术人员代劳，在我的情况，就是自己当好自己的秘书。

D. 逼上梁山

公司为某一笔投资，从某公司购买数据。前面常说打包，这儿是100多包。这家公司的数据有两种版本，一种一年几千美元，一种是每月一万美元，公司买的是便宜货。数据是一模一样的，但是。。。贵的数据包装的整整齐齐，任何统计软件包就可马上输入，便宜的那种你就需要些想象力了。文件一开始是内容提要，结束是领导总结，中间的数据部分还要搞鬼。每一列都会有个名字（Heading），一般来说，人们只使用字母、数字、空格，最多再来点下滑线。这儿就热闹了，有问号，百分号，括弧，应有尽有。恶作剧还没结束，每个文件的列数有多有少，大家共有的有80多列(共有变量），另外有14列捣乱变量随机地穿插在100多个文件里。

主管此事的是个中国人，他知道要解决这个问题的必要条件是一个人同时精通数据结构、SAS、和VBA（Excel 的程序语言），似乎是非我莫属了，他就向我老板把我借了好几天。最后我是用VBA把这一堆乱麻整理成标准数据格式的。大致有四步，放在一个循环（Loop）中做，大循环中还有好多个小循环。

1) 找出内容提要的最后一行和领导总结的第一行，把这两部分删掉，然后把文件存下。他们总算没有坏到连这一点都不让你做到。

2) 把所有不规范的变量（包括那14个捣乱变量），赋予一个规范的名字，两者放在同一表格。然后在经过（1）清理过的文件一列列往下读，每读一个就去变量名表里寻找，找到后就把读到的那一列Heading用规范名字代替。现在假定都找到了。请注意每个文件的列数可能不一样。为使程序层次清楚，再存一次。

3) 把共有变量（即那14列之外）列成一表格，再把经过（2）清理的文件的Heading 逐列往下读，每读一个就去共有变量表中搜寻。一旦找到就把这一列（包括Heading）复制至另一空白Excel文件，找不到的显然属于14个变量中的一个，我们就去读文件Heading的下一列，直至读完。

4) 好像都完成了，但我比较仔细，假如那家公司把共有变量“提拔”一些变成捣乱变量随机穿插，这100多个文件的最后格式就会不一样。有些多几列，有些少几列。我们就要反过来，把共有变量表中的每个变量到100多个文件中都去找一遍，只要有一个文件中找不到就要出警示。

"逼上梁山“中的（3）（4）两点合起来是数据处理中一种非常重要的技巧，就是保证两组数据完全相同。100多文件中的变量中属于公有变量的，我们要全部找出来。而所有的共有变量，我们要求在100多个文件中的每一个都能全部找到。象这样的例子，在我的工作中，不说每天，但可以说每星期都会见到，当然他们是以各种不同面貌出现的。曾经有一次，有个部门要我对某个产品做点分析。我问他们识别标志是什么，对方说这种产品的房贷都是从一家公司来的。我说这家公司又不是只做这一种产品。对方还没反应过来，我就用了下面的例子。有人问你向别人借了多少钱，你说你只向张先生一个人借，但是你怎么能确定张先生只把钱借给你一个人？

浏览(2674)

(0)

发表评论


			文章评论

作者：onetime

留言时间：2010-03-21 00:26:15

For the task D, using Perl should be very easy to do, isn't it? Even some fancy text editor or Shell language should do it. I am assuming you are replacing certain characters and make sure columns are aligned ... Perl is the way.


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：Drug

留言时间：2010-03-14 20:47:55

你的贷款理论根本不能令人信服。正如我以前说的，如果利息和本金平均起来每年来付，你的假设是成立的。不幸的是，你必须先付利息。

一个最简单的例子：一个20年的贷款，如果我在第一年付清前5年本金加正常付款15年和15年正常贷款以同样的利息，你看结果是否一样。你的理论是应该一样。

我告诉你结果：
20万贷款，年利率是5，如果15年付清，总数为284，668。
20万贷款，年利率是5，如果20年付清，每年付款是15839。前15年付款总数是237585。如果第一年付清第2到4年的本金是6280+6602+6939+7299=27115。所以总数是237585+27715=264700。所以实际上你到15年底，你还欠284668-264700=19968。也就是说你根本不可能在第15年底还清。你要到16年半才能付清。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：Drug

留言时间：2010-03-14 20:10:16

你的理论根本不能令人信服。正如我以前说的，如果利息和本金平均起来每年来付，你的假设是成立的。不幸的是，你必须先付利息。

一个最简单的例子：一个20年的贷款，如果我在第一年付前5年本金加正常付款15年和15年正常付款以同样的利息，你看结果是否一样。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：0+1

留言时间：2010-03-12 12:34:35

给DRUG同志做最后一次科普工作,你第一年底把第二年的本金付掉,这个数字乘上1.06^19,正好等于每年的付款额,所以第20年底,原来的最后一张支票就不用付了.


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：0+1

留言时间：2010-03-10 16:12:49

Drug: 很明显你在想当然，并没有根据我的建议用Excel操练一遍，我不解释了。Componding的威力是许多受过高等教育的人都会忽略的。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：Drug

留言时间：2010-03-10 15:35:58

当你在第一年付了前5年的本金加上每年正常付款，到15年底你只不过付了前15年的正常贷款和利息加上少部分duction from your totally left loan。根本不可能从20年变成15年贷款and pay off。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：Drug

留言时间：2010-03-10 15:03:58

第一年所付的前5年本金只占20年总贷款的很少一部分（可能实际上连平均两年的都不够），根本不可能变成15年贷款。口算都能算出来。唉！


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：0+1

留言时间：2010-03-10 12:36:07

第一年初付5年本金，当然也可以，这就相当于20年贷款变成15年，现实生活中不可能发生。第5年底如果只付原来该付的支票，剩下的就相当于一个15年的贷款。如果多付3年，剩下的就等价于一个12年的贷款，这就是为什么第17张支票是你最后一张支票。你可自己用公式或用Excel验证。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：Drug

留言时间：2010-03-10 11:14:08

0+1：
我认为你的假设是成立的如果所付贷款的本金和利息安平均每年来付，且总数是相同的前提下。但实际情况并非如此。利息必须先付。提前还贷款，只能从后（最后一年）往前还本金。当然还得越多，就越省利息。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：Drug

留言时间：2010-03-10 10:22:12

如果照此推论，是不是我可以在第一年就付前5年的本金（和最后5年相比非常便宜）加上正常付款，20 年的贷款15年就可以付清。这是不可能的。我认为只能是付最后5年的本金而不是前5年的本金。同样提前一年应该是付最后一年的本金而不是其他时间的本金。

Thanks again for your quick response.


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：0+1

留言时间：2010-03-10 07:41:08

Drug：确实提前一年，你可以用Excel自己演示一下。另外，整个分析在Fabbozi的Handbook发表过，绝对不会有误。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：Drug

留言时间：2010-03-10 07:18:45

谢谢解释：

你原文: 你如果把第6年的本金$7,275.81付清，你就可以把偿还年限缩短到19年。你实际上已经站在第6年年底，因为第6年是跨过去的，持续时间为0.

This is impossible. You did not pass the 6th year as your 6th year regular pay can not cover the 6th year interest and 7th year principal.

所以你不可能把偿还年限缩短到19年。你可能仅仅缩短几个月。如果你想缩短到19年，你必须付最后一年的钱，也就是$16449.91 而不是$7,275.81.同样，如果你仅仅付第６－８年的本金，你最后一张支票不可能是第１７年。如果你想让最后一张支票是第１７年而且省最后三年的利息，你应该付第１８，１９，和２０年的本金($46609.06)而不是第６－８年的本金($23163.28)。而最后三年已经没有多少利息。根本不值得提前付。　


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：0+1

留言时间：2010-03-10 06:25:54

Thanks, Drug.
我说在第5年底，你付了6-8三年的本金，你的最后一张支票就是第17年底那张。就是说，这三年本金的提前支付可以使你省去最后3年的利息。原文是第13篇《假“公”济私》，欢迎观赏。


	回复 \| 0 评论前需要先登录或者注册哦发表

作者：Drug

留言时间：2010-03-09 12:08:57

Sorry, I did not say clearly. I was interrupted by other things.

A friend of mine sent your articl to me talking about how to pay the mortgage. I can not find your original articl. In that article, you were saying in a 20 years' loan, if you pay the 5th, 6th, and 7th year principals in the 4th year, it will save your the last three years (years 18, 19, 20)loan. This is not true.

Even you pay the principals in the 5-7 th years, Your 5th year regular pay can not cover the 8th year principal and 5th year interest because the 8th year principal is higher than the 5th year principal. The same thing happens that your 6th and 7th years regular pay can not cover your 9th and 10th years principal with the 6th and 7th years interest. Therefore, finally, you can not short your mortgage payment three years, it may only save your 6 month or less

If you really want to reduce your mortgage payment in three years, you have to pay the last three years principal in advance but save very little interest.

If your assumption were right, I would pay my first 5 year principals in the first year. Unfortunately, it may only save my may be 2 month payment finally.

Bank is much smarter than us I believe.

Thank you.