前不久俺灌水侃過到底“普通高學歷海華”和“高學歷普通海華”兩種說法到底哪個對(見:閒侃(11):普通高學歷海華 vs 高學歷普通海華)。其實幾乎不用想,前者是對的,後者是不對的。這裡我們
construct a
scenario,以一個實例來看為什麼後者是不對的。很多時候,語言、文字這種看似和“定量”不搭界的東西其實是可以通過定量半定量的例子加以說明的。 我們先確定兩個概念/變量: a) 教育程度。這個變量 x 假設有7個可能的離散取值: 1) 小學 and 文盲: x = 1; 2) 初中: x = 2; 3) 高中: x = 3; 4) 專科: x = 4; 5) 本科: x = 5; 6) 碩士: x = 6; 7) 博士: x = 7. 當然對學位 x 的賦值只能是大體上的,因為誰也說不清為什麼本科 x=5 的話,碩士就對應6,對不對。因此 x 取值 {1,2,3,4,5,6,7} 只能是保證其單調性這個原則下的一種大致近似。
我們再假設具有上述學歷的人占據的人數權重分別是 10%,10%,20%,20%,20%,10%,10%。再假設高學歷對應於博士學位。而”普通“則對應所討論群體(收入)50%,亦即中位數附近的老海華。當然我們還有如下的一則implication:
學歷和收入是線性正相關的,亦即通常而言,學歷越高的人,收入也越高。我們假設這種關聯(從統計角度而言)是較強的,但不是很強。
b)收入。記為 y。假設我們將每個學歷段的人按照收入分為5個ventiles,分別對應於相應學歷段 top 10%,30%,50%,70%和 90% 收入水平的人的收入。我們的 scenario 有如下數值:
學歷 | 人數 權重 | 年收入(單位:萬) | 名稱 | x | Top 10% | Top 30% | Top 50% | Top 70% | Top 90% | 小學 | 1 | 10% | 1 | 1 | 2 | 3 | 4 | 初中 | 2 | 10% | 2 | 3 | 4 | 5 | 6 | 高中 | 3 | 20% | 2 | 4 | 5 | 6 | 7 | 大專 | 4 | 20% | 3 | 4 | 6 | 7 | 9 | 本科 | 5 | 20% | 5 | 6 | 8 | 9 | 11 | 碩士 | 6 | 10% | 7 | 8 | 10 | 12 | 15 | 博士 | 7 | 10% | 9 | 10 | 14 | 18 | 20 | 總計 |
| 100% |
|
|
|
|
|
幾位教授(起碼,一草,mingcheng99)雖然就“普通高學歷老海華”還是“高學歷普通老海華”哪個恰當有意見分歧,但根據其文章的意思,應該都是指“博士”那行與收入 50% 那列的交匯點所代表的那類老海華(為醒目起見,我用了紅色字體),在我們的 scenario 中這類老海華年收入 14 萬。見樓下的 plot 圖(註:為了直觀顯示相應的權重,比如說,一半專科生取值 x=4.另一半以 x=4.25顯示出):

線性回歸結果: p < 0.0001,這個值很小了,因此收入和學歷是相關的,和打頭的 implication 一致。Coefficient of Determination: R^2 = 0.601(因此收入和學歷有較強的關聯,但不是特別相關)。 “高學歷普通老海華”的明確意思以及修飾順序關係是“高學歷(普通(老海華))”,這裡“高學歷”是修飾“普通老海華”的,而“普通”修飾“老海華”。老海華在這裡被我們按照收入和學歷分為了50個“等分”,按收入排序如下:
1 1 2 2 2 2 3 3 3 3 4 4 4 4 4 4 5 5 5 5 5 6 6 6 6 6 6 6 7 7 7 7 7 8 8 8 9 9 9 9 9 10 10 11 11 12 14 15 18 20 因此“普通”老海華對應上述第 25、26個數,都是6萬,和“高學歷”沒什麼關係。事實上就上述數值而言,第14個數數值是4萬,第36個數字是8萬,從14-36,幾乎占據老海華一半的人口,可還是和“高學歷”不搭界。 而“普通高學歷老海華”則沒有這個問題,因為其修飾順序關係是“普通(高學歷(老海華))”,這裡“普通”是修飾“高學歷老海華”,而“高學歷老海華”對應上述表格中最後一行,“普通”就是指那行5個收入段的中間那個,亦即 14 萬所對應的老海華。
很明顯,如果收入和學歷越相關,即使不考慮漢語語法,“高學歷普通老海華”這個說法越不靠譜。在 100% 線性相關的前提下,例如我們假設毛爺爺復生重新掌權,發布行政命令規定臨退休的老海華的薪水全國統一定為: 小學:2萬;初中:4萬;高中:6萬;大專:8萬;本科:10萬;碩士:12萬;博士:14萬 那麼“高學歷普通老海華”是 100% 自相矛盾的說法, 這時起碼教授的反例證偽就木問題。
|