昨天论坛有几个话题,大伙儿聊得比较多的是智商 (IQ)、以及天才维纳 (Norbert Wiener)。维纳的话题是因为深山兰同学的帖子: 维纳的两次遭遇 。这里俺再就这两个话题补充几句,特别是如何将这两个话题联系起来,看是不是有些意思。
0) 先来几句“铺垫”。这里我们假设只讨论成人的智力,并且假设所讨论的每个人智力是不变的,假设我们讨论的是目前最流行的韦克斯勒成人智力量表。智力,比较明显的是个体概念,因为这是你个人的某种属性;但是智商 IQ 则不是,智商是个集约的概念,它是将某个人的智力拿去和其他人相比较而得到的一个值。这和“道德”这样的概念是类似的,离开了群体去谈论道德是卑鄙还是高尚是没有意义的。比较明显的是,函数 f
IQ = f (智力)
理论上是个单调函数,所以从这个意义而言,在群体/样本空间给定后,智商 IQ 就是智力的一种度量,它们之间存在 1-1 对应关系。
在韦克斯勒成人智力量表中,在假设服从正态分布的前提下,智商的平均值被定义成 100,标准差被定义成 15,见下图 (from online) :
这自然意味着,大约有 68% 的人智商在 85-115 之间,大约有 95.45% 的人智商在 70-130 之间,所以智商高于 130 的人大约只占 2.27%。
1) 关于 IQ 测试的两句题外话。
话题 1a):因为“智力”这个概念在 IQ 测试前就存在,所以传统意义下的“智力”,和 IQ 测试下的“智商”---- 从而智力,因为智商和智力存在 1-1 对应关系 ---- 就会有偏差,这是一般的 IQ 测试成绩用来度量智力而招致批评的主因。不过据统计,IQ 值和成绩测试之间的相关系数很高,大约有 0.70+,而 GRE 分数和成绩测试之间的相关系数不足 0.2。
话题 1b):东亚人 (大陆、台湾、香港、日本、南韩等) 的 IQ 值全球最高,部分原因是因为东亚人的学习方式造成的,应试教育能使得这个分数偏高。当然这个说法会使得部分民族自豪感很强的同学不高兴。
2) 你的智商是多少:频率学派和贝叶斯学派的分歧
你的智力是你的一种固有属性,所以你可以假设它是个固定值。但是你的智商呢?因为智商是个集约概念,它的平均值被定义成 100,所以你的智商 IQ 值,很明显,是样本空间的一个变量。如果测试的样本空间是全大陆或者全世界,你的 IQ 值若是 100,那就是十足的中庸之资,只能拿来在一群笨蛋前面显摆;但是如果样本空间是全世界的傻博士甚至是全体炸药奖得主,那得个 100 的分数就是件值得显摆的事情,至少比巴灵顿大学高才生吴征博士强。
所以不妨固定样本空间,例如假设样本空间是大陆。因为理论上你的智力和智商存在 1-1 对应关系,所以样本空间固定了,你的智商理论上也有个值。假设你在某次测试中得到了一个分数 120,这个 120 是不是就是你的真实 IQ 呢?很明显,不大可能恰好就是,因为你若参加数次测试,你的分数可能是 120、115、124、119、119、123 等之类。大家知道,统计的一个使命就是从这些观测值出发,推出你的真实智商是多少。当然你可以用各种看上去比较合理的推断法,例如最小二乘;例如最大似然、最大后验等。用统计术语来说,这里的任务就是对你的智商这个“参数”进行估计,其中最大似然、最大后验这两种方法 (本质上,前者是后者的特例) 和概率中的贝叶斯 (Bayes) 定理密切相关,具体细节就没必要说了。贝叶斯本人可以说是历史上最大牌的“民科数学家”之一。他带来的影响不只是数学方面的,也有哲学方面的,历史上著名的哲学流派“贝叶斯学派”就是以他的名字命名的。
为啥这会牵涉到哲学?而且这和深山兰的帖子、特别是“决定论”有啥关系?
回到咱们的话题。咱们现在的任务是从一系列的 IQ 测试成绩去估算出真实 IQ,对不对?所以一个很自然的想法就是,我虽然不知你的 IQ 的值到底是多少,但是我知道它一定是存在的,是个固定值,不会改变,亦即 IQ = constant;如果测量值越多,我们就能越精确地知道真实的 IQ 值,对不对?持这种观点的学派,称为古典的频率学派 (Frequentists),和它对立的就是贝叶斯学派(Bayesians)。贝叶斯派则认为你的真实 IQ 并不是一个固定值,而是一个随机值,也就是说,你的真实 IQ 也可以是个分布:
IQ = g (IQ)
这里 g 就是参数 IQ 所服从的分布。所以从模型而言,贝叶斯学派的模型比频率派的模型更复杂,从计算角度而言,大体上贝叶斯学派关于你的 IQ (注意此时你的 IQ 是个分布) 结果,亦即所谓的后验分布,就是频率派的似然函数乘以所谓的先验分布函数。所以从方法论/哲学的角度而言,频率学派可以说是 static 的,贝叶斯学派可以说是 dynamic 的,后者的模型是不确定的,完全取决于观测数据 (亦即你的一系列 IQ 测量分数),以及一个带有主观色彩的先验分布,然后用似然函数去修正先验分布,然后得到后验分布 (亦即你的 IQ 到底是多少的一个概率分布)。自然规律 (例如你的真实智商) 到底是什么,频率派认为是客观存在的,不以你的观测结果和主观判断而改变;贝叶斯学派则认为自然规律依赖你的观测结果 (例如你的 IQ 测量值),不同的观测结果会导致不同的客观规律,而且和主观的先验分布有关;也就是说,观测数据 (外加主观的先验分布) 决定了客观规律是什么。
所以,你的智商到底是多少?呵呵,是不是不说还成,现在倒貌似越说越糊涂了?
3) 胡侃决定论:和深山兰商榷
尽管不是一回事,但是经典的频率派和贝叶斯学派的区别,和经典物理和哥本哈根学派对量子力学的解释,是有些相似的。大体上讲,频率派和以爱因斯坦为代表的经典物理学派类似,而贝叶斯学派则和玻尔、玻恩的哥本哈根学派观点类似。
长话短说,回到深山兰昨天的一则跟评 (见 http://bbs.creaders.net/life/bbsviewer.php?btrd_id=3170631&btrd_trd_id=913125,这里拷贝如下):
庞加莱对混沌的认识是今天混沌理论的先驱。今天知道,我们的这个世界根本不是严格决定论的。
他对世界这个特性的认识,是远远走在时代前列的。而爱因斯坦却一直抱着牛顿力学推导出来的决定论的东西不放,这是他为什么极力反对量子力学的根本原因。很显然,在此点上,爱氏被时代远远抛弃了 。当然,我们不能就说庞加莱超过了爱氏。仅说二人是一个水准上的。
首先,爱因斯坦-玻尔之间的之争里,那里的“决定论”,和这里混沌理论 (当然还有别的,例如布朗运动) 中的“决定”,不是一个意思,是有本质区别的。爱-玻之争的决定 (自然就是包括相对论在内的经典物理之决定论),老爱认为是本质的,而量子力学的统计结果不是本质的,经典的决定论仍然起作用,尽管如何起作用的,老爱以及薛定愕、玻姆等人回答不了,但回答不了并不等于经典的决定论不起作用;但玻尔、玻恩等人的观点是经典的决定论失效,统计诠释是本质的。
但是混沌理论、布朗运动以及别的例如热力学等,决定论并没有失效。例如10000 个花粉在水分子的撞击下做布朗运动,物理学是能够提供描述这些花粉运动的精确解的动力学方程组的,尽管实际上这做不到。水分子随机撞击花粉的布朗运动,经典的决定论并没有失效,你之所以不这么做,是因为你能力有限,解不出几万亿个方程组。但你不能,并不意味着耶和华不能。但根据量子论的观点,耶和华在开启黑匣子前是对薛定愕猫的生死状态也断言不了的;电子的具体位置,耶和华也是无法精确测量的。这是因为本质,而不是因为技术上的困难。如果我们能瞬间秒解几万亿个方程组,热力学就是多余的,熵增定律就可以抛进爪洼岛,因为它们是多余的。
如果贝叶斯学派是本质的,那么耶和华也回答不出你的智商到底是哪个固定值,因为它不存在一个静态的值,它会随着观测数据的改变而不断地被修正。耶和华只能给你一个后验的动态分布结果。
经典物理的决定论只在一种情况下失效:在广义相对论模型下,强引力场存在闭合回路的情形。但即使是这样,这种失效和量子论的统计解释中的失效也是不同的:前者的失效不是本质的,而是因为整体积分迭加的结果,这种失效是 traceable 的,而在局域范围内决定论总是有效的;后者则是本质的,是因为上帝在抛硬币。
文章评论
作者:紫荆棘鸟
留言时间:2013-12-09 11:07:18
惭愧,也谢谢coolboy评论。这个周末俺没有码一个字,这账目暂且欠下。
作者:coolboy
留言时间:2013-12-06 08:55:08
路过,学习了。 才学概率统计论时会纳闷“期望”(expectation)与“平均”(average或mean)之间的区别。现在看来,这期望就常同“先验”、“理想”什么的概念相联系,而“平均”则同“实测”、“证据”什么的概念相联系。 紫鸟:“如果我们能瞬间秒解几万亿个方程组,热力学就是多余的,熵增定律就可以抛进爪洼岛,因为它们是多余的。” 记得许多年前在中学时就看到过类似的表述,当时认为仅仅是一种理想化的或哲学上的认知表述。但现在知道了,有些东西是可以实现的。复杂度与“10,000个花粉在水分子的撞击下做布朗运动”相类似的问题是100,000,000个气体分子之间在相互撞击之下做着类似的布朗运动。此时,若从热力学或即统计力学、流体力学的角度来描述求解该物理过程,则只需温度、压力、速度等几个参数来描述,此时所对应的统计诠释是非本质的。随着计算机技术的发展,采用所谓的DSMC(Direct Simulation Monte Carlo)方法就能精确模拟气体中每个分子的运动状态。对所有分子的运动状态取统计平均就可以还原根据统计诠释理论所对应的温度、压力、速度等参数值。
作者:紫荆棘鸟
留言时间:2013-12-06 05:32:10
才看到,谢老嘎。这里你跳跃很大,我得回几百字,但现在没时间......先挂号计账吧。
作者:嘎拉哈
留言时间:2013-12-06 03:51:03
在贝叶斯的意义下,先验概率,道,自然法原理,天理,普世价值,都是同一个东西。 俺对贝叶斯的思想的看法,在哲学和社会现象和在自然科学上正好调各个儿。在哲学上,贝叶斯主义是在现实存在和先验共识之间做折衷。这显然更趋向于存在主义。邓小平的摸石头,习近平的试鞋子,都是这类货色。但是在自然科学领域,贝叶斯主义是在先验假定(现有理论)和新证据之间做折衷。有人说频率主义只相信证据,所以才是100% 的实证主义。这个说法绝对有问题。假定分布不是高斯的, 我们仍然可以按照高斯模型算出均值和方差。所以说,频率主义的“仅相信证据”的说法是表面的。本质上,频率主义其实更是依赖先验假定。贝叶斯主义要比频率主义更偏向于科学实证主义。简单地说,自然科学中的理论,无论多么精确,我们都不需要有像固守“天理”那样的态度,而应当随时准备发展他。但是在意识形态领域,我们却不能轻易放弃那些普世的共识。用一句话来总结就是: “人类的问题靠共识,自然界的问题靠实证”。 这也正是民主和科学的含义。不幸的是,贝叶斯的影响,跨越了人和自然两界。所以很容易造成人们的思想混乱。人们很容易不自觉地使用科学方法讨论民主,或者用民主的方法讨论科学。 以高斯分布为例,在现实世界中,除了极少数情况,比如布朗运动。在绝大多数情况下,我们对假定某个随机现象服从“高斯分布”,然后根据这个“制度自信”,开始了统计分析。其实仔细想想,我们的信心从来就不是百分之百。俺要强调的是,我们根本就没有必要那样做。在统计学里,样本永远都是不够的。在极端情况下,如果我们的样本只有寥寥几个怎么办?在这种情况下,所有的人们都会凭直觉是用重复性原则。 例如,某个路口,在过去10年中发生了5次重大交通事故。人们第一个想到的,是平均每两年发生一次。这就是所谓重复性原则。所以,重复性原则其实就是人类在样本极少的情况下,对最大似然估计的一个直觉。 贝叶斯原理就是在先验假定和重复性原则之间的某种折衷。
作者:紫荆棘鸟
留言时间:2013-12-05 15:03:33
谢喜剧,IQ 只是个人的一小部分特征。 老嘎的 comments 有份量,读着受益。静候...
作者:嘎拉哈
留言时间:2013-12-05 09:04:05
谢紫鸟回复! 很可能是俺误解了您。不过这个话题很有意思。等俺晚上下班在详细讨论。俺觉得全依的说法不准确。 其实,贝叶斯方法的物理意义,是在先验模型的置信区间里做文章。尤其当先验模型的样本很少(即置信区间很大)时,贝叶斯方法具有显然的优越性。以两个人IQ测试为例,贝叶斯估计是在先验模型和重复性原则之间的某种加权平均。
作者:中国喜剧
留言时间:2013-12-05 08:01:02
我现在是越来越坚信,God Made Us Equal And Special。智商会产生先发优势但并不决定。 其他的因素太重要了,毅力,品格,及其他一揽子能力。 其实,智商太高会很痛苦的,就是那种独孤求败的感觉。
作者:紫荆棘鸟
留言时间:2013-12-05 07:08:57
我将“全伊”的 comments 拷贝来,比较有意思 ---------- 间言之,贝叶斯统计不是假定不存在一个确定的分布或参数,而却是用不同的手段来估算那个未知(但却是确定存在的)真参数。 这其实是个更一般的哲学问题。现实和理想。在现实中,我们不管如何测量一个物理量或几何量,我们的测量总有误差的,所表达的值,大概永远是有限位小数点的有理数。事实上,现实中根本不存在什么抽象意义的点,线和面,所以也不可能量出所谓“绝对精确”的长,高宽或面积。 然而,基于希腊古典哲学观,我们必须假定有一个“绝对正确和精确”的理想值。只有在这个观点下,我们的测量,和数值逼近才有意义。所以数学上的很多定理都存在唯一性定理。我们的实数集(在添加了无理数后)保证了各种解的存在性。 只有当存在性成立,我们的测量和数值逼近才有意义。否则,你倒底在量什么?在逼近什么?在测量或逼近一个根本不存在的东西?即便你测量或计算的数值序列看起来好像越来约趋向某个东西,但如果这“某个东西”根本不存在,那这个观测到的所谓的趋势也毫无意义。 对于参数的统计估算也是同样道理。贝叶斯统计用一个先验概率来描述一个未知参数的分布。然后,用观测到的实际值(跟参数有观)来更正校验关于那个参数的分布。得出后验概率。最后用后验概率重新估算参数。 现实当中,究竟有无所谓的“确定不变”的真参数值?即便在在最理想的可控环境下,我们的实验条件都不可能100% 不变。每次重复实验,都必定有某些因素已经变了。但只要变化不太大,我们宁可假设有个确定的分布参数值在生成我们所观测到的随机变量值。只有这样,我们的统计估算才有逻辑意义和现实意义。 即便过程是动态的,但最终隐含的假设是有一个确定不变的静态规律在不同条件下生成了我们所观测到的动态值或动态规律。这种哲学观,西方人不但用哲学语言,更用精确的数学或科学语言来表达。然而东方人也有类似的哲学观。新儒学的理一分殊论就是这样的观点。只是老祖宗的格物致知论在方法论上犯了重大错误(以前有过论述),导致近代科学永远无法产生。
作者:紫荆棘鸟
留言时间:2013-12-05 06:57:34
yellow witch 好!现在万维最高产的写手,应该是你吧?以前好像是幼河。你所说的,应该是另一话题吧,简单地说,是“德才”之间的相关系数,呵呵。 ----------- 老高也好,芙蓉国是说湖南,尽管木芙蓉是成都市花。我这里绝对是胡掰,真要说啥,特别是统计推断,这里没有我个中专生说话的地方,呵呵。 ----------- 老嘎好,应该是我没写明白吧,但我觉得我所说的就是你那个意思啊,你看我文中都将 dynamic 这个词安在 Bayesians 身上了。刚才在论坛回了个帖,感觉和你这里说的有关,等下拷贝过来。另谢谢你这里的长跟帖,对我而言颇有收获。 另说论坛打架。万维打架的,我看大部分是因为左右之争,其实细想一下,觉得挺没意思的。以前我在论坛和 YDX (岳东晓) 打过,后来觉得挺无聊的。不是他不该打,而是觉得 fruitless,呵呵。 开个玩笑,觉得频率派有点像万维的左左,Bayesians 有些像万维的右右,呵呵。 ------------- 贝叶斯统计推断 (这里“贝叶斯”这个词出现频率较高,不知你这里到底是啥意思,我假设是和最大后验估计并行类似的那个具体的统计推断) 和最大后验类似吧,那只是种推断时的取舍准则,这个准则在 real application 中会导致结果不同,但是差异并非是频率派和贝派的分歧所在。贝叶斯&最大后验的“公共部分”,就是概率中的贝叶斯定理 (其实应该是概率中的贝叶斯定理反过来,呵呵)。形像点说,贝叶斯定理无非需要个“权重”,马后炮似的根据各自的权重去论功行赏或者分摊责任,对不对?这个权重分布,最开始实际上是经验的、主观的,这个才是Bayesians的核心话题之一。但Bayesians最关心的应该还是后验分布,它是先验分布加上样本数据的推论/定理。既然是推论,哲学上就没啥可说的,所以分歧的焦点,应该还在先验分布概率,以及 "current" sample data。不过你如果将得到的后验分布当作是以后的统计推断的先验分布,那么哲学上后验分布也有嚼头,但是此时新的先验分布是之前主观概率分布的推论,所以它必然也是主观的。 这方面,我觉得混世魔王是对的,贝叶斯系列的几个统计推断实际上确实是在修正 (所以文中我也说这是 dynamic 的)。它并没有否认“真值”的存在,只是不假设它必定存在而已 (这两者是有很大区别的,因为后者能让两个学派共存,而前者根本就是互相矛盾的)。
作者:紫荆棘鸟
留言时间:2013-12-05 06:42:16
安博好,我想概念上,即使对 Bayesians 而言,IQ 也是个单一的值吧。这其中的区别在于,这个值不好确定,所以假设它是个分布。 所以问题被分成两部分: a) 得到这个分布 (后验分布):先验分布 + current sample data b) 从这个后验分布进行取舍
作者:巴黎老高
留言时间:2013-12-05 06:03:10
阅读头晕头绪太复杂,你写得好渊博,对我这没上过大学的来说。芙蓉国来到该是芙蓉城——成都府来,或是芙蓉国?——湖南?
作者:嘎拉哈
留言时间:2013-12-05 02:10:11
update有两种方法。第一种是经典方法。即把用于建立先验模型的样本书加一,然后重新统计均值和方差,最后用归一化方法,对每道题的分数进行微调。第二种方法,使用贝叶斯公式的方法。虽然也相当于修正模型,但结果却与第一种方法不同。贝叶斯方法大大地强调了最后这个样本(即第一个测试者)的贡献。更有笨蛋拉天才的后腿,或天才让笨蛋借光的效果。其实托福 和 GRE 考试中心一直都在这样做。只不过,由于不能重复出题,只能调整下次考题的难易程度。所以很多中国考生都知道,如果上次考生都是笨蛋,那么这次的考题就会变得人容易些。 关于决定论与量子论之争。很多搞哲学的人喜欢把它提高到认识论的高度,认为量子论是人类认识的一个大飞跃,说的口吐白沫,满嘴跑舌头。其实他们当中的绝大多数根本就没有真正理解爱因斯坦同波尔到底在争什么。爱因斯坦有那么笨吗? 简单地说,人类作为生命的一种,有这样一个时空特性。他们的空间尺度大致为米的两级,时间尺度大约为200年(从科学的诞生算起,并且假定知识可以100%继承)。另外一方面,宇宙的空间范围从数百万光年到纳米甚至更小的两级。时间尺度至少为从40亿年到纳秒(最短寿命的粒子)的两级。这就决定了,即便是借助各种观测手段,人类的可观测范围必然是很有限的。比如,假定人类的尺度为纳米量级,那么我们就可以坐在电子上面,用决定论的方法去观测它。如果真的是这样,您还担心人类搞不清电子的量子特性吗? 说到这里,我们就知道了,原来限制了决定论的,是因为人类的个头太大(量子力学)和粒子的个数太多(热物理)。换句话说,决定论不再适用,是由于观测尺度和好汉对群狼的原因,而不是决定论本身有错。这既是阿基米德所说的,给我一个杠杆,我能举起地球,是一个道理。比如买大米,虽然您仍然可以数颗粒的方法,但用斤称来的要方便的多。但是如果换成买面粉,用数颗粒的办法几乎就是不可能了。 爱因斯坦说的上帝不掷骰子,是指这样一个认识。水分子杂乱无章的布朗运动,导致了完全确定的宏观热力学定律。既然热力学定律在时间上具有稳定性。那么说明虽然每个水分子虽然到处乱跑,但是也应当是乱有乱的道道。至少说,他们的”乱度“在时间尺度上是稳定的。否则热力学定律不可能长时期成立。用统计学方法,就跟买面粉秤的原因差不多。但是,从统计物理到量子力学,还要过一道坎。粒子的行为,又从道路的”乱“,进一步到了时隐时现的”乱“。但是,按照爱因斯坦,”隐身人“活动的统计规律,就像热力学布朗运动差不多,也是乱而有章的。否则宏观物理定律不可能是稳定的。
作者:嘎拉哈
留言时间:2013-12-04 23:21:30
读了紫鸟这篇,感觉像俺这样整天在政治问题是争来争去,不仅比较肮脏,而且是在浪费时间。这倒不是因为人类的意识形态问题是无需思考的,而是经过一段时间的争吵,尤其是最近抗议ABC和识别区所反映出来的华人那绝对的爱国情结,俺觉得,用贝叶斯的术语就是,中国人的爱国主义思维模型根本就是 unupdatable。这就是俺说的浪费时间的含义。 关于基于贝叶斯的参数估计。俺的理解好像跟紫鸟有点不一样。贝叶斯原理的关键是update 的概念。很多参数估计的统计推断问题都有这样的特性,即估计和推断的过程,同时也是是抽样过程。这个IQ测试的例子尤其典型。 给定先验模型的均值和方差,由于每次测试只取题库的一部分,所以如此给一个人测试多次,得到的IQ结果自然每次都不同。这就像GRE考试差不多。这说明,只要每次考试不穷尽题库,那么每个人的IQ都只能是一个分布。因为置信区间不是零。这是很显然的。但是,这个分布同贝叶斯原理完全无关。换句话说,贝叶斯所要强调的不是这件事儿。 在IQ测试这个例子里,如果有两个测试者 A和B (假定每个人的题目不变)贝叶斯模型是说,A和B两个人的测试顺序不同,两个人的结果都会不一样。这是因为,第一个测试者的结果,已经用来更新(updates)模型的均值和方差了。所以模型变了。结果就是想紫鸟前面提到的那样。夸张地说,假定两个被测试者分别是一个IQ为80的笨蛋和IQ为240的爱因斯坦。如果先测爱因斯坦,那么这个笨蛋的IQ测试结果可能就是100.反过来,如果先测笨蛋,那么爱因斯坦的IQ测试结果可能就是160.当然,如果用于先验模型的样本已经很大,测试结果不会因顺序不同而有那么大的变化。
谢谢作者话题。 智力是能力的一种表现。有许多因素会促进或阻碍智力的发挥。如,语言,文字,甚至社会性等。有智之人应自觉庆幸父母遗传为己而不能以此天生之物去攻击侮辱,扁低其他任何智力不高或低的人。因为往往那些人有其它才能。 在美国,智力与文化修养成相对正比。一般情况下,智力越高,文化程度越高,文化修养(尊重他人越自觉)但在国内并不成正比。不少智高之人随意凭着自己的智力高或学历高攻击,诬辱,谩骂他人。认为是自己特有的权力。这不得不认为中国教育体糸出了严重问题。重智不重徳会对国家产生不良影响。这种自我澎胀,使多少人心理畸形,成为一种奇特的社会现象。
作者:安博
留言时间:2013-12-04 18:43:37
好分析。智力不是一个单一确定的值,而是一个分布,是不是也和热力学一样,仅仅是因为人无法完全同时描述她的所有参数(方面)?