写了这么多篇,可以吸引点眼球的题目都已经用完了,这篇也是讲比较,取名就偷点懒了。上一篇比较两个大小不一样,基本特征分布不一样的样本空间,但两个都认为是大样本,A的总人口能放大就是基于这一点,将B的总人口按比例缩小也是一样的。这次我们需要将一个小样本与大样本比较。 我们要研究一个局部地区的死亡率并建立模型,白手起家比较辛苦,所以想和一个大样本加以比较。一般来说,这个地区和别人总是不太一样,否则就没有必要单独研究了。因为和别人不一样,所以特征分布会相当不同,就是说不能直接比较。如果我们硬套上一篇比较两个大样本的方法,裁剪下来,大样本可能没什么,但小样本是放大过得的,绝对人口会所剩无几。这个大样本一般非常大,比如是整个国家,我们完全可以假定不管人口加倍还是减半,都不会影响其总体死亡率。而这个小样本又是如此之小,所以我们要尽量保留,别说20%,我们连5%,甚至1%都不想损失。一般来说,小样本的人口增减会对它的统计性质产生影响,象死亡率这种小概率事件,小样本测量值往往会偏低。 在我们公司的实际情况,大样本可以是好几百万的所谓标准房贷,而小样本一般是数量为几万或十几万的新产品。对于大样本,不说了如指掌,但至少是相当熟悉。因为小样本是新产品,大家对模型根本没有底,只好参考标准房贷的老模型,但要参考就要对两者行为都有所了解。如果只是定量差别,我们往往使用同一模型,只是把模型系数修改一下。如果有定性差别,那就要另起炉灶,但两者的差别对新模型也会有很大帮助。现在问题就是怎么比较,不严格的比较很可能会误导你,比如《第三者的模型》中的房贷金额因素。 现在回到人口模型,比较两个人口数量相差悬殊的样本的死亡率。上面说过,这个“大”样本非常大。我们可以进一步假定,其实是必须假定,不但整个样本人口按比例改变不会改变行为,连其中的每个组都如此之大,按比例改变人口也不会改变这个组的行为。这就暗示我们把大样本各组人口比例裁剪的和小样本一模一样, “没有条件创造条件也要比”。即使小样本只有一个人,我们也把大样本相应的组按比例保留下来。经过这番裁剪,我们可以把苹果和苹果相比了。你如果喜欢橘子,说橘子比橘子也无所谓。 在很多情况下,小样本本身很自然地是大样本的一部分,这时候你必须把小样本本身刨去。自己和自己比差别当然是0,但这个0和其他的0是不一样的。一般来说,大样本在每个组的人口都是很多,但偶尔也会有几个组,大样本人口很少,在实际操作时,我们还是照样保留裁剪,这就是在学校和在公司搞研究的差别。食品和药物人命关天,这样做可能食品药物管理局(FDA)那儿过不了关。对于房贷研究,我们不必担心这么多,更何况平均是带权重的,这些组的影响一定非常小。一旦大样本相应人口为0,我们还是只好割爱,造一个数据毕竟还是不允许的。一般来说,这样裁剪之后,“割爱”的百分比不会超过1%。如此比较之后,如果两者还有统计意义上的差别,那就是说,两个样本确实不一样。 对于房贷的Prepayment来说,我么可以采取更简洁的分组方法。这Prepayment,最重要的因素是(房贷)年龄和利率,第10张支票就表示房贷年龄是10个月。我们先讨论分组的一般原则。组分的越细,比较就越是准确,但是数据就很容易变得支离破碎,这样会带来两方面的问题。一是每组人口太少,会影响统计可靠性。第二是分的很细以后,割爱的百分比可能会增加。所以这这如何分组,完全凭经验,根据数据的具体情况,以及研究目的来决定。对于以年龄分组的,一般以季度为单位,对于一些极特殊的房贷产品,比如商业房贷,以年为单位也是有的。行内人士一致认为,正负差一个月对研究Prepayment不会有本质影响。但如果分组的目的是大小样本间的比较,以月为单位会带来意想不到的好处。房贷利率在一个月内的变化一般不会很大,所以或许就根本不用分组了。问题是大小样本的的中位数或平均值一般是不一样的。根据经验,利率差别在正负0.25%以内,房贷的行为不会有显著差别。现在假定小样本平均值是6%,大样本是5.5%。因为大样本是如此之大,我们只要把大样本在6±0.25%区间内的房贷和小样本比就可以了。或许这只采用了40%的房贷,但由于是大样本,这已经是个很大的数字了。如此一来,尽管组分的不算很多,但对于这两个因素的比较却已经十分精确。如果两者存在差别,那就需要考察两个方面。首先,两个样本对于这两个最重要因素的依赖关系完全可能不一样,就象以前所说女的平均寿命就是比男的长。其次,其他因素可能有影响,比如信用评估,贷款房价比值,贷款数额等等。这种很严格的比较就能帮助你把这两个因素分离出来,否则的话,连这两个基本要素的分布都不一样,看出有差别你又能怎么样。一旦分离出来,这进一步的分析就需要很专门的知识和技术,已经远远超出本短文范围。 第16篇在网上贴出后,有读者问,研究死亡率用寿命表(Life Table)不就可以了吗,干吗这么麻烦比来比去的。首先,我的问题是从房贷中来的,这房贷牵涉到人类的行为,比死亡率要复杂的多。如《前言》中所说,人口模型和房贷高度类似,比较容易描写,而且不必涉及公司业务细节。所谓寿命表,只是一种平均,是保险公司的参照体系而已。寿命表只考虑了年龄一项因素(有时会男女分开列表),其他因素只考虑了平均效应,真正的保费需要在这基础上加加减减得出。加减多少,就是要通过种种比较,可能也包括这两篇所陈述的方法。假定文革后中国恢复人寿保险业务,但一开始百废待兴,并没有在所有地区同时开始。后来他们决定把业务扩展到青海,青海的人口死亡率很可能和其他地区不一样,你必须通过科学的比较才能知道有无差别,差别是多少,这基本上就是这一篇中大小样本的比较。假定又过了几年,他们又决定把业务扩展到西藏,他们可以把西藏的死亡率和已经有些经验的青海相比。人们因为有理由期望西藏青海的死亡率比较相像,所以西藏的保费在青海的基础上作微调就比较容易和准确,直接根据中国人口的“平均”寿命表作调整会比较不容易。青海和西藏比就类似于上一篇中的两个“大”样本比较。其中的青海在与中国“平均”寿命相比时是“小”样本,但和西藏相比时就成了 “大”样本。青海作为小样本时是全部保留,不做裁剪的。但和西藏相比时,就必须对两者同时进行裁剪,使他们同时成为苹果或橘子。 |