十幾年前, 我老闆, 一個NYU的MBA, 帶我去見大名鼎鼎的 Lauri Goodman. 她當時是我們的客戶還是發展對象, 我不知道, 也並不關心. 老闆介紹說, 這是老零, 跟我做模型. 馬上又”更正”說, 應該說是我跟老零做模型. 他還是覺得不對, 就又介紹了一遍. 我知道問題, 老零知道答案. 十幾年過去, 我還是覺得這句話最準確地描述了我的能力和工作的性質. 對我認識的大部分理科 Ph. D.而言, 我覺得這句話也最準確地描述了他們. 知道了這一點, 對理解我的系列和下面的說明會很有幫助.
用統計知識分析數據, 自然是我們工作的一個重要部分. 但相當多的時候, 你沒有現成的工具可直接應用, 偶然會有很難的課題, 自己需要創造一套方法去分析. 如果你的所有工作都有現成的工具書可查, 一般來說, 這個位置就不會雇Ph. D., Computer Science Master 就可以了. 我們組幾乎全是Ph. D., 我們老闆要求招的人都會寫程序. 你的分析結果要別人寫程序計算是不允許的. 那樣的話, 浪費資源不說, 檢驗也極其困難. 一旦發現問題, 馬上出現扯皮. 寫程序的懷疑是你方法錯了, 搞研究絕對不承認自己方法會錯, 一棍子打回去叫寫程序的 Debug.
處理數據還有幾種不同情況以及相應的不同側重點. 為財政報表準備的數據就要求非常準確, 否則會有大麻煩. 有時交易員需要一些定性的資料, 時間非常緊急, 就要採用一些近似方法.. 等你精益求精得出結果, 生意早就沒了. 另外, 研究用的數據處理, 和報表用的也有很大不同. 研究用數據要求純粹, 研究人口模型時911的數據就不應該包括, 你不想讓這些偶發事件影響模型的預測功能, 但颱風中的死亡人數一般來說就要包括進去. 但人口普查就要把所有的死亡考慮進去, 因為這牽涉到今後的社會資源分配等等.
搞預測就要做模型, 這部分工作一般由Ph. D.做, 有時也有 MBA, 我沒見到過Master 幹這活. 如果這模型市場上已有, 你的模型精度要和人家有可比性, 否則必輸無疑, 但如是開創性的, 時間就是金錢, 先做出來再說, 質量過得去就可以, 改進慢慢來.
在我們這一行, 模型可分短期和中長期, 其他地方我就不清楚了. 兩者的要求是完全不一樣的. 中長期模型不考慮一兩個月的準確性, 而側重於一段時間內(1, 3, 5 10年內) 模型預測的平均值合理. 將來的預測對當前信息的依賴越少越好. 一般使用各種線性或非線性的回歸(Regression).短期模型基本上相反,需要在今後幾個月內儘可能精確. 比如房貸Prepayment的信息, 一般來說至少有一個月的滯後, 一月份的數據至少要三月初知道, 但許多地方需要在二月份就做預測. 這時你如有二月份的信息就要儘可能利用. 這在中長期模型是不允許的. 短期模型大多使用Auto-Regression, 常常自變量本身又是因變量.
最後說股票, 這是最難的, 我在公司幹了這麼多年還是一竅不通. 債劵稱為 Fixed Income, 股票就是它的對立面. 老閻曾把”王福貴”輸入微軟的對聯軟體, 一陣電閃雷鳴之後, 下聯是…”周小康”.你能否根據這個信息做個對聯預測模型. 股市預測比這要難的多, 理論上是不可能的. 以後有空再寫一篇. 中國的股市預測, 比其他國家難度更大.兩年內上證指數能從2,000升到6,300,再跌回到1,600. 哪個模型能預測. 我找出至少三條理由說明為什麼更難. 政府干預太多, 市場不規範, 股民不成熟.
這個系列是為對這行稍有了解的人寫的, 再降低起點實在有困難, 即使現在紅鼻子已經抱怨了,”牙縫還沒塞滿, 就沒了”. 有人想在華爾街找工作, 看了我寫出的幾篇, 說是對寫簡歷很有幫助.