前幾天有一位叫做“海天”的博客就美國總統大選民意調查和預測寫的一篇文章,介紹了美國民意調查和預測的一些做法,這篇文章還算客觀,沒有一些博客的“語不驚人誓不休”的光怪陸離。覺得這是個不錯的話題,故在感恩節的輕鬆之餘,就此也寫一點自己的看法,純粹是從技術角度討論民調的準確性和前瞻性。 美國的民調五花八門,名目繁多,民調機構也是多如牛毛,全美的專業民調機構有近千家,調查方法和模型各不相同。不過原理卻只有一個,即通過抽樣來獲取得人口的均值,根據統計學的原理,如果樣品數量足夠大而且 , 彼此獨立,那樣品均值等於實際均值(也稱為母體均值-population mean): = μ , ( = 樣品均值; μ=實際均值) 。這就是所謂的中心極限定理 (Central Limit Theorems), 這個定理指的是如果的均值μ 和方差σ2是有限的,只要樣品數量n足夠大,樣本平均數的分布就趨於均值μ ,方差為σ2 / n的正態分布。如果把方差σ2 / n開方,就得到樣品總量的標準差(standard deviation-σ): (m=樣品均數),標準差是統計學裡的一個基本但是卻是應用廣泛的一個概念,反映樣品的離散程度,表示在正態分布中,樣品均值落在母體均值正負兩側的概率。一個標準差代表了68.3%的樣品均值會在( 的範圍之內,兩個標準差指95.4%的樣品值在 範圍之內;三個標準差指99.7%的樣品均值會落在 �範圍之內。 這就是通常所說的“三個標準差規律”(68–95–99.7 rule)。下圖標直觀地反映了這個標準差規律:
� �
與標準差相對應的百分比可以簡單地看成統計上的置信度 (confidence level), 也就是我們平常說的“把握”,目前在政治經濟人文等社會學科里通常採用的置信度是兩個兩個標準差,也就是95%的置信度,自然科學裡的採用置信度要高於社會學科,一般在三個標準差。兩個標準差的Z值 是1.96. 如果我們要求得兩個標準差的樣品誤差範圍(margin of error), 簡單地把1.96放入標準差公式就可獲得:
上面這些統計概念就是目前西方民調的基本原則。現在我們來回頭看看川普和希拉里競選總統時的民調和實際結果的差異。 下圖是大選前的最後民調。(MoE=margin of error):
剔除沒有樣品數量和MoE的三家民調,根據上述的統計原則,我們獲得9家民調的均值為 希拉里在全國民意上領先川普3.1%,MoE= 2.01%. 置信度為兩個標準差 (95%)。 這就是說民調有95%的把握認為希拉里會以53.1% vs 46.9% ( ) 的優勢擊敗川普獲得大選。讓我們看看實際結果,到目前為止,在1億2千萬張的選票中,希拉里獲得的票數超出川普200萬張, 或者說1.7%。民調均值和實際民意均值接近,置信區間 (confidence interval)非常狹窄。 所以,這次民調並沒有失誤,川普獲得大選是因為選舉人體制的原因,而選舉人體制在統計學上來說是加入了權重的因數,使得選票的分量因為地區的不同而發生了變化,可以這樣說,“one people, one vote"在美國的政體下並不存在,不過這是政治話題,和這篇文章無關。
所以,所謂的取樣誤差是這次總統大選民調偏差的推測是沒有意義的。現代的取樣誤差和美國早期的民調取樣誤差差不多,沒有造成樣品民意和實際民意的有統計意義上的區別。
那麼,現在美國有沒有可信度高的,建立在統計原理的民調預測模型? 很遺憾。 沒有, 有不少民調機構在做預測,預測的統計模式不外乎通過回歸把民意趨勢線性化,
常見的模型有Mean absolute percentage error (MAPE), Mean squared deviation (MSD)和 Mean absolute deviation (MAD),我對於這些模型沒有做過研究,只是知道原理而已,所以不在此討論。建立在這些原理上的模式對於在誤差範圍之類的民調是無用的。我去“538”網站看過,讀到538對於其他民調機構的預測準確性的評估,覺得很不靠譜。任何人都可以做到預測準確性的75%以上,方法很簡單,只要民調差距超出誤差範圍3個百分點之上,就可以預測贏者,對於民調在誤差範圍之內的,可以隨便猜,有50%的準確性。假設前後兩種預測各占50%, 你就有75%的勝算。
上此在海天博客的回帖里,有一個女士大膽地用蒼蠅落在候選人臉上作為敗選的依據,你還別說,她的方法不比那個“538”的方法更不靠譜,反正都是瞎扯。
|