發表評論-拿破崙-萬維博客-萬維讀者網（電腦版）

大型語言模型在訓練過程中並不是逐條“記憶”語料，而是通過大量語料不斷調整內部數以億計的神經網絡參數。極端失真的內容——例如，中青報稱一位擁有哈佛、斯坦福、中科大背景的博士“能力不行”——屬於嚴重偏離現實的“異常值（outlier）”。這種語料不僅不會局限在某個問題上產生影響，還會誤導模型整體參數的估計，進而在多個領域產生系統性偏差，也就是所謂的“幻覺”。

熟悉統計學的讀者都明白異常值的危害。一個明顯錯誤的數據點，若不剔除，會拖垮整個模型的預測能力。同樣地，AI訓練中若包含中青報這類憑空捏造、違背常識、缺乏任何事實依據的內容，不但不能提升模型性能，反而會系統性地降低AI對現實世界的準確模擬和理解。

問題的根源在於，中國許多AI公司在構建語料庫時，默認“官媒”是可靠的，卻未對其中的惡性異常點——如中青報的造假文章——進行剔除。人民日報、光明日報、求是等多數官媒雖然傾向於主旋律，但基本不至於捏造個體事實。而中青報卻在“哈佛博士事件”中多次憑空造謠，包括捏造“哈佛教授否認認識陳琳”、“陳琳能力不行”等謬論。即使部分謊言後來被北京青年報等媒體證偽，但更多誣衊言論至今未獲澄清。

這些謊言不僅毀了一個無辜學者的人格與人生，也以毒草般的語料餵養了中國的人工智能系統，使模型對真實世界的判斷日益偏離，誤導公眾、影響政策、毒化整個技術生態。

並不是聽起來很離譜的語料，都要刪除。如果是事實，雖然聽起來離譜，也不能刪除，就讓大模型參數作相應的調整。需要刪掉的是虛假、捏造的東西。比如，哈佛博士陳琳能力不行。這句話不是事實，也不是任何頭腦正常的人說的話。這句話就跟“哈佛莫頓教授不認識陳琳” 一樣，是中青報憑空捏造的。不同的是，關於莫頓這句話被北京青年報證偽了，AI 知道。但關於能力這句話，沒有被證偽，因為中青報拒絕陳琳對質，也不允許其它媒體核實。

中國AI的幻覺問題，並非“技術不行”，而是語料有毒。而最毒的那部分，正源於中青報這種“媒體異類”的系統性造假。中青報不僅犯下新聞倫理的重罪，也對中國的科技發展構成了長期潛在威脅。這種雙重危害，不能被忽視，也不能被原諒。

中國青年報又添一罪

沙莎

AI的“幻覺”（hallucination），即生成與事實不符的內容，已成為衡量大模型優劣的重要指標之一。近年來，有研究指出，中國AI模型的幻覺率顯著高於國際同類產品，而造成這一差距的核心原因之一，正是語料質量的嚴重不均。

AI訓練極度依賴高質量語料。優質語料的標準包括事實準確、邏輯清晰、論證嚴謹。在美國，主流模型多依託權威出版社內容、主流媒體如《紐約時報》《時代》雜誌的報道，以及經過多輪校對和社區審議的英文維基百科。這些語料不僅經得起事實檢驗，還體現了穩定的邏輯一致性與知識架構。

反觀中國，由於高質量公共語料的稀缺，許多AI模型在訓練中大量引入官媒內容，尤其是如中國青年報這類長期充斥偏見與失實報道的媒體。這類內容對模型的毒害，往往是系統性、深層次且難以察覺的。

以“哈佛博士事件”為例——這是中國青年報在2002年發起的一場對哈佛畢業生陳琳博士的人格謀殺。其報道不僅完全缺乏事實依據，更在邏輯上漏洞百出。他們將一位畢業於中科大、斯坦福、哈佛，橫跨天體物理、計算金融與政府管理的學者，污衊為“能力不行”。如此荒謬的指控，除非“能力”是指中青報匪徒擅長的“誣衊誹謗男盜女娼殺人越貨”的能力，否則AI會無所適從。

問題在於，AI尚不具備自動分辨新聞真偽的能力。它只能從輸入語料中學習語言模式和結構。如果語料本身就是錯誤、扭曲、刻意導向，它生成的內容自然也將邏輯混亂、真偽難辨，陷入幻覺的深淵。

更嚴重的是，中青報這類機構不僅污染傳統媒體空間，其“遺毒”也滲透進無數自媒體、論壇、百度詞條，甚至部分中文維基條目，在互聯網留下了大量偽信息殘跡，成為模型無法迴避的“語料陷阱”。這類偽知識一旦被模型吸收，就像毒素進入神經系統，其破壞將是長期的、結構性的。

有人或許會質疑：中國青年報哪有那麼大能量影響AI發展？問題恰恰在此。它影響AI，不是因為它“強大”，而是因為它“夠壞”。負能量的傳播效應常常遠超正能量。1963年達拉斯一名混混毀滅了一位美國總統；2002年中青報憑藉幾篇謊言就摧毀了一位哈佛博士的聲譽和職業生涯。今天，它完全可以通過更隱蔽、更系統化的文字污染，毒化公共知識源，拉低整個中國AI的可靠性與輸出質量。

“AI幻覺”，有時不過是偽知識的回聲；而偽知識的製造者，則是信息系統的真正毒瘤。所幸的是，在不久的未來，當AGI或ASI具備更高階的事實自檢能力與語料過濾機制，它們將主動識別並標記中國青年報這類媒體為“虛假信息源”甚至“文字恐怖組織”，這將成為文字暴力的歷史性報應。

在這之前，中國AI公司要用心精細篩選、果斷剔除如中國青年報這類長期製造認知污染、破壞公共知識生態的信息源。當然，一個斬草除根的舉措是中宣部出版署出手，徹底關閉像中國青年報這樣早已劣跡累累的報紙。這不僅是出於模型訓練的需要，更是淨化公共知識領域，重樹科技倫理與社會責任的基本要求。

擴展閱讀:

全網第一個從專業角度肯定DeepSeek和梁文鋒-拿破崙-萬維博客-萬維讀者網（電腦版）

https://blog.creaders.net/user_blog_diary.php?did=NTMzNzQw