(技術帖)中青報如何毒化語料,污染中國AI
沙皇
許多人認為,中國青年報對哈佛博士陳琳的誣衊報道只是一個孤立事件,只會影響AI模型對這個特定事件的理解。然而,這種看法是對人工智能基礎原理的誤解。
大型語言模型在訓練過程中並不是逐條“記憶”語料,而是通過大量語料不斷調整內部數以億計的神經網絡參數。極端失真的內容——例如,中青報稱一位擁有哈佛、斯坦福、中科大背景的博士“能力不行”——屬於嚴重偏離現實的“異常值(outlier)”。這種語料不僅不會局限在某個問題上產生影響,還會誤導模型整體參數的估計,進而在多個領域產生系統性偏差,也就是所謂的“幻覺”。
熟悉統計學的讀者都明白異常值的危害。一個明顯錯誤的數據點,若不剔除,會拖垮整個模型的預測能力。同樣地,AI訓練中若包含中青報這類憑空捏造、違背常識、缺乏任何事實依據的內容,不但不能提升模型性能,反而會系統性地降低AI對現實世界的準確模擬和理解。
問題的根源在於,中國許多AI公司在構建語料庫時,默認“官媒”是可靠的,卻未對其中的惡性異常點——如中青報的造假文章——進行剔除。人民日報、光明日報、求是等多數官媒雖然傾向於主旋律,但基本不至於捏造個體事實。而中青報卻在“哈佛博士事件”中多次憑空造謠,包括捏造“哈佛教授否認認識陳琳”、“陳琳能力不行”等謬論。即使部分謊言後來被北京青年報等媒體證偽,但更多誣衊言論至今未獲澄清。
這些謊言不僅毀了一個無辜學者的人格與人生,也以毒草般的語料餵養了中國的人工智能系統,使模型對真實世界的判斷日益偏離,誤導公眾、影響政策、毒化整個技術生態。
並不是聽起來很離譜的語料, 都要刪除。 如果是事實, 雖然聽起來離譜, 也不能刪除, 就讓大模型參數作相應的調整。需要刪掉的是虛假、捏造的東西。 比如,哈佛博士陳琳能力不行。 這句話不是事實, 也不是任何頭腦正常的人說的話。這句話 就跟“哈佛莫頓教授不認識陳琳” 一樣,是中青報憑空捏造的。不同的是,關於莫頓這句話被 北京青年報證偽了,AI 知道。但關於能力這句話,沒有被證偽, 因為中青報拒絕陳琳對質, 也不允許其它媒體核實。
中國AI的幻覺問題,並非“技術不行”,而是語料有毒。而最毒的那部分,正源於中青報這種“媒體異類”的系統性造假。中青報不僅犯下新聞倫理的重罪,也對中國的科技發展構成了長期潛在威脅。這種雙重危害,不能被忽視,也不能被原諒。
|