有一次,我接到任务,要给客户建立一个评分制度。怎么打分,要我自己去定。第二天早晨,我告诉老板,我做过的一个东西好像很接近,基本原理应该是一样的。于是我从PC中打开一份文件,这个文件存在一个叫Research的文件夹。大部分人都是按项目分档的,所以老板对这个Research很有兴趣,问里面是什么。我告诉他,我的Research定义是书上找不到的方法,并非每个人都能做出来的。他觉得这太苛刻了,我说我可是发表过15篇论文的人。这个数字在学校研究所不算什么,在华尔街据我所知算是很响亮了。 华尔街的大部分工作,实际上是不够格称为研究的,至少不能称为学术研究。按照我的定义,这儿只有第二篇《学术官司》和第六篇《七步成诗》勉强够格,也只能称为是华尔街水平的学术研究。第五篇《平均场近似》看上去很高深,实际上没有新的东西,只是正确地运用了前人的成果。这一篇个人认为是够得上学校研究所档次的,但在那个档次,也就一般水平而已。 上面提到的那个项目,可以略加简化后,等价地用人口问题描述。假定我们要研究美国90年代的平均死亡率,要求包括90年代出生的以及移民。如果没有后面两项,《四两拨千斤》中已有方法介绍。实际上如果没有这两项,根本就没有资格号称千斤,而现在已远不止千斤了。怎样定义才能最大程度地准确反映实际情况,绝对不是一个容易的问题,这个问题可以看作是封闭空间人口平均死亡率的自然延伸,所以一旦新增人口为零时,它必须能收敛到《四两拨千斤》中的公式。下面的表格中给出了4个例子(A-D)及5种方法,最后一个方法是我发明的。在每个例子中,我都假定老同志为5,000,每年20人离开,10年中加入2,000新同志,到第10年底共200人离开,但是加入和离开的时间每个例子是不一样的。为简单起见,可以假设新人口都是1月1日加入,离开的不管是1月1日还是12月31日都认为是同一年。 四个例子如下: (A)2,000人都第一年加入,200人也全第一年离开。 (B)2,000人都最后一年加入,200人也全同年离开。 (C)2,000人都第6年加入,5年内每年离开40人。 (D)2,000人都第6年加入,200人全部第10年离开。 为方便讨论,我先把结果给出,然后讨论方法。 方法 / 例子 | A | B | C | D | (1) | 5.87 ‰ | 5.87 ‰ | 5.87 ‰ | 5.87 ‰ | (2) | 5.87 ‰ | 6.92 ‰ | 6.66 ‰ | 6.45 ‰ | (3) | 5.83 ‰ | 6.89 ‰ | 6.66 ‰ | 6.41 ‰ | (4) | 4.07‰ | 4.07 ‰ | 4.07 ‰ | 4.07 ‰ | (5) | 5.87 ‰ | 7.96 ‰ | 6.85‰ | 6.85‰ | 先介绍我的方法(5)。决定存活率r的数学表达式为 ∑ i Mi rN-i+1 = M 求和从1到N。Mi为第i年初加入的人口。M为第N年底还健在的人数。不管是哪一年加入的,人口数目都按照同样的存活率r递减,只是递减几次与哪一年加入有关。第1年的递减N次,即到N年底还有M1 rN。第2年为M2 rN-1。最后一年加入的只减少很少一点,还剩MN r。从字面上理解,平均就是大家一样,这定义也算是符合了,大家的存活率一样,意味着死亡率也一样。当然到N年底所剩百分比与加入的年份有关,这也是可以理解的,我们下面还要解释。 其余四种方法如下 (1) 以10年中所有进入过的人数为分母,离开的人数为分子。然后开N次方。 (2) 把每年的存活率算出,作几何平均。 (3) 把每年的存活率算出,作算术平均。 (4) 不管新进入人口,用《四两拨千斤》的方法算。 封闭空间的定义,看上去简单,其实暗含着许多道理。因为封闭空间的定义是大家都使用的,所以任何延伸出来的定义必须与它符合。首先我们注意到旧方法是新方法的特例,即M1 ≠ 0 而其他都是0。旧方法中,在同一时间间隔内,死亡人数越多,存活率就越低,新方法显然也满足,实际上其他(1)-(4)也都满足这一点,否则就要闹笑话了。 在封闭空间中,如果初始人数和离开总人数不变,经历的年份越多,死亡率就越低。这也很好理解。中国小煤矿出事,如果10年10次,或许没人大惊小怪。但如果一年好几次,温总理就只好掉眼泪了。在例子A-D中,这一点只对新进入的有影响。因为新人口离开200是每个例子一样的,我们就要看总新人口的平均经历时间。例A的平均经历时间显然最长,所以死亡率应该最低。这一点在(2)(3)(5)中反映出来了。根据定义可知道,(1)(4)无法反映这一点。(1)和(4)尽管并非无中生有,但显然不合理,下面就不再讨论了。 在封闭空间中,进入时间决定了平均经历时间,从而对死亡率会有影响。但何时离开对死亡率是没有影响的,这从《四两拨千斤》的最后一个公式很容易看出, r = (FN/F0)1/N。它只取决于最终人数FN。这点不是很好理解,人人都希望长寿,好死不如赖活着,第1年离去和第10年离去怎么能一样呢,如果一样安乐死不早就实施了。但这确实是这个普遍使用的方法所隐含的,而且它也有其合理的成分。美国士兵在伊拉克的平均死亡率,是由总的投入兵力,战争持续时间,以及死亡人数(5,000)决定的,不管是赞成还是反对这场战争的,是不会去探讨这5,000将士是哪一年死的,总不见得死得早就是不该打,死在最后几年这场战争就打对了。C和D就是为这点设计的。(2)和(3)显然认为晚死比早死好(在N年内死的前提下),而(5)则和原方法一致。话说回来,我们是研究房贷时碰到这问题的,一间房子被银行拍卖了,假如房价不变,早卖和晚卖对投资人来说确实是一回事。 A实际上等价于7,000初始人口的封闭空间。所以合理的方法应该收敛到《四两拨千斤》的结果。(2)和(5)是满足的,(1)和(4)总体表现很差,但根据定义可知,这点倒是满足的。总体表现不错的(3)却无法满足这一点。 综上所述,(5)得冠军确实是理所当然,众望所归。许多投资人的数学水平很有限,你说平均XX率,他问你什么的平均,(1)-(4)你是讲不出的,只能把数学公式扔给他们自己去理解。(5)尽管也不简单,但至少是讲得清楚的。但(5)也是由缺点的,就是使用了迭代,花时多些。所以如果不是要求很高的研究,(2)和(3)也是经常使用的。据我所知,(2)使用得相当普遍。但如果是要求较高的研究,象人口普查,财务报表,或FDA批准新药,(5)无疑是最佳人选。 |