十几年前, 我老板, 一个NYU的MBA, 带我去见大名鼎鼎的 Lauri Goodman. 她当时是我们的客户还是发展对象, 我不知道, 也并不关心. 老板介绍说, 这是老零, 跟我做模型. 马上又”更正”说, 应该说是我跟老零做模型. 他还是觉得不对, 就又介绍了一遍. 我知道问题, 老零知道答案. 十几年过去, 我还是觉得这句话最准确地描述了我的能力和工作的性质. 对我认识的大部分理科 Ph. D.而言, 我觉得这句话也最准确地描述了他们. 知道了这一点, 对理解我的系列和下面的说明会很有帮助.
用统计知识分析数据, 自然是我们工作的一个重要部分. 但相当多的时候, 你没有现成的工具可直接应用, 偶然会有很难的课题, 自己需要创造一套方法去分析. 如果你的所有工作都有现成的工具书可查, 一般来说, 这个位置就不会雇Ph. D., Computer Science Master 就可以了. 我们组几乎全是Ph. D., 我们老板要求招的人都会写程序. 你的分析结果要别人写程序计算是不允许的. 那样的话, 浪费资源不说, 检验也极其困难. 一旦发现问题, 马上出现扯皮. 写程序的怀疑是你方法错了, 搞研究绝对不承认自己方法会错, 一棍子打回去叫写程序的 Debug.
处理数据还有几种不同情况以及相应的不同侧重点. 为财政报表准备的数据就要求非常准确, 否则会有大麻烦. 有时交易员需要一些定性的资料, 时间非常紧急, 就要采用一些近似方法.. 等你精益求精得出结果, 生意早就没了. 另外, 研究用的数据处理, 和报表用的也有很大不同. 研究用数据要求纯粹, 研究人口模型时911的数据就不应该包括, 你不想让这些偶发事件影响模型的预测功能, 但台风中的死亡人数一般来说就要包括进去. 但人口普查就要把所有的死亡考虑进去, 因为这牵涉到今后的社会资源分配等等.
搞预测就要做模型, 这部分工作一般由Ph. D.做, 有时也有 MBA, 我没见到过Master 干这活. 如果这模型市场上已有, 你的模型精度要和人家有可比性, 否则必输无疑, 但如是开创性的, 时间就是金钱, 先做出来再说, 质量过得去就可以, 改进慢慢来.
在我们这一行, 模型可分短期和中长期, 其他地方我就不清楚了. 两者的要求是完全不一样的. 中长期模型不考虑一两个月的准确性, 而侧重于一段时间内(1, 3, 5 10年内) 模型预测的平均值合理. 将来的预测对当前信息的依赖越少越好. 一般使用各种线性或非线性的回归(Regression).短期模型基本上相反,需要在今后几个月内尽可能精确. 比如房贷Prepayment的信息, 一般来说至少有一个月的滞后, 一月份的数据至少要三月初知道, 但许多地方需要在二月份就做预测. 这时你如有二月份的信息就要尽可能利用. 这在中长期模型是不允许的. 短期模型大多使用Auto-Regression, 常常自变量本身又是因变量.
最后说股票, 这是最难的, 我在公司干了这么多年还是一窍不通. 债劵称为 Fixed Income, 股票就是它的对立面. 老阎曾把”王福贵”输入微软的对联软体, 一阵电闪雷鸣之后, 下联是…”周小康”.你能否根据这个信息做个对联预测模型. 股市预测比这要难的多, 理论上是不可能的. 以后有空再写一篇. 中国的股市预测, 比其他国家难度更大.两年内上证指数能从2,000升到6,300,再跌回到1,600. 哪个模型能预测. 我找出至少三条理由说明为什么更难. 政府干预太多, 市场不规范, 股民不成熟.
这个系列是为对这行稍有了解的人写的, 再降低起点实在有困难, 即使现在红鼻子已经抱怨了,”牙缝还没塞满, 就没了”. 有人想在华尔街找工作, 看了我写出的几篇, 说是对写简历很有帮助.