信息和熵的等价性
我们处在一个信息时代, 大家都知道信息是什么,但同时, 很少人对熵这个概念感到自在。 实际上,信息和熵这两个概念基本上是等价的。从两者之间等价性的讨论, 可以更深刻地了解信息的内涵。
最早把信息和熵连在一起的, 是麦克斯韦. 他做了一个后来被叫做麦克斯韦妖的思维实验, 有很多介绍,就不重复了。他的基本想法是, 如果获得信息的成本少于信息所带来的收入 (这里成本和收入以熵为单位),那么就违背了热力学第二定律。从他的推理,信息就是熵的减少。从麦克斯韦的讨论, 我们可以看到, 熵是自然界一个通用的经济测度。
麦克斯韦的讨论发生在1871年。很多年后, 爆发了二次世界大战, 战争期间, 一项重要的工作是破获对方的密码。密码的制作者,总想把密码做地非常随机, 使对方看不出规律,而破译者则希望看出对方码文的规律。申农提出了一种破译密码的一般方法[1],我们简单介绍一下。
随便一句话, 比如, “I draw a picture." 好像没什么规律。但是 I 和 a 只有一个字母, 而 picture 有7个字母,这是偶然吗? 不是的。一个越常见的单词,应该越短,这样,句子的平均长度就会比较短,节约了人们互相交流的时间。也就是说,尽管我们觉得语言只是一些随机的符号,但实际上包含了经济的规律。申农就是利用这个内在的规律来破解敌方的密码。申农之前有人证明,如果一个信号出现的频率是 p,那么这个信号的码长应该大约是 -log p,这样的编码平均长度最短。总体而言,一个信号的加权平均长度,或信息量, 是 sum (pi*(-log pi),而这个函数, 恰好是物理熵的一个表达方式。申农从纯数学角度, 推出信息就是熵,而信息量, 则是输送信息的最低成本, 我们又一次看到, 信息和熵,是经济概念。 语言是思维的一种表现,我们重新来看一下词汇的使用频率和长度之间的关系。 有些事物, 开始的时候不常用, 代表它们的单词也较长, 变得常用之后, 单词也就相应缩短了。 比如说, 汽车最初叫 automobile,用的人多了, 大家就叫 car。Boy friend, girl friend 本是少男少女之间的关系, 但现在婚姻不稳定,到处是70岁,80岁的 boy friend, girl friend。最近出了一个很短的词 bae 代表男女朋友, 不知这个词会否流行开来。 上面的分析表明, 尽管我们没有特意地改变语言, 随着时代的变迁, 语言也不断变化, 尽可能降低信息交流的成本,而这个成本的测度就是熵函数。
有人会说,信息是文字,熵是物理量,怎么会等价呢?但文字不是传递信息的唯一途径。任何一个人都可以说,“我很有钱。”所以这句话本身信息量不大,但如果这个人是大公司的老板,或者住豪宅,开豪车,到处旅游,所传递的信息量就大多了。一百多年前, 美国经济学家范布伦 写过一本书, 叫《休闲阶级理论》,里面讲到有钱人, 特别是新近有钱的人, 必须让别人看到你的消费 (conspicuous consumption),否则,别人不知道你有钱。 所以,信息的价值,和所消耗的物质财富是等价的,而物质财富,又可以用熵理论来表达 [2,3]。 信息, 熵和经济价值是三个紧密相连的概念。
参考文献
1. Shannon, C. (1948). A mathematicaltheory of communication. The Bell SystemTechnical Journal, 27, 379-423, 623-656. 2. Chen,J. (2015) The Unity of Science and Economics: A New Foundation of Economic Theory, Springer
3. 数学:应用和乐趣,http://blog.sciencenet.cn/blog-2912119-947721.html
|