深度：DeepSeek 能不能顛覆全球AI格局？-雷歌747-萬維博客-萬維讀者網（電腦版）

網絡日誌正文

		深度：DeepSeek 能不能顛覆全球AI格局？	2025-01-28 01:46:53

深度分析：DeepSeek 能不能顛覆全球AI格局？

雷歌 2025年1月27日

一夜之間，一款“純中國製造”的AI語言大模型DeepSeek風靡全球，也震撼了硅谷和華爾街。在蘋果應用商店，DeepSeek的下載量超過了ChatGPT等熱門應用，成為當日第一。而周一開盤的美股市場，以英偉達、博通和台積電為代表的AI概念股均暴跌超10%，納指暴跌超3%。

一、橫空出世

DeepSeek的獨門絕技，是相對於全球領先的AI語言大模型如ChatGPT等，只用了非常少的芯片算力和訓練成本（大概十分之一或更少），就做出了在功能上與可以與ChatGPT4相媲美的AI大模型平台。據媒體報道，DeepSeek在1月20日最新發布的R1模型，其預訓練費用只有557.6萬美元，在2048塊英偉達H800 GPU（性能比H100要差不少，制裁後專供中國）集群上運行55天就完成了。而美國一些領先的AI大模型平台，一般都要用1.6萬張以上的H100GPU芯片，完成一個大模型的訓練費用要5億美元以上。

（註：計算成本的方法和包括的範圍可能不同。因為H800芯片的市場價超過20萬人民幣，2048塊的總價值就超過6000萬美元，因此說DeepSeek-R1預訓練成本不到558萬美元，顯然不包含購買GPU集群和搭建平台的費用。）

DeepSeek帶來的衝擊，首先是美國大型AI公司每年幾百億幾百億地燒錢的模式受到質疑，還有沒有必要？搞得AI大廠都去搶購囤積英偉達GPU，英偉達芯片價格近年水漲船高，一片都要好幾萬美元。而英偉達股價也在2023至2024兩年間最高漲了超過十倍，超越蘋果微軟成為全球市值最大的公司。也正因為此，今天英偉達股價暴跌近17%，市值一天內就蒸發近6000億美元。

另一方面則是對組建AI大模型在技術策略上的啟發。DeepSeek的技術策略有沒有可能在其它平台複製和推廣，甚至成為新的主流技術策略選擇呢？多快好省地搭建AI平台，肯定是大勢所趨。如果技術上可行，就一定會成為必然選擇。但這一點，就目前能收集到的信息看，還是不確定的。DeepSeek-R1發布後，還有待於業內對它進行深度解構和評估，這需要一定時間。

這兩個方面是相互關聯的。顯然，如果多快好省的技術策略可複製，那目前美國大型AI公司的燒錢模式就立馬會被拋棄，短時間內英偉達GPU芯片可能就沒那麼香了（當然長遠看，英偉達芯片還是屹立不倒，因為組建AI平台的費用門檻大幅降低後，會有無數原先沒實力進入這一領域的中小公司進入，變成百花齊放，對英偉達GPU芯片的總需求說不定還會擴大）。

二、Bug與隱憂

DeepSeek-R1發布後，業內普遍驚呼這是出人意料的“黑科技”，全行業都受到巨大震動。專業人士分析，DeepSeek在架構設計和優化技術上進行了創新，包括混合專家架構（MoE）、多頭潛在注意力機制（MLA）、優化預訓練語料庫等。這些技術使得DeepSeek能夠在保持性能的同時，大幅度降低計算和存儲需求。

通俗一點說，就是以下做法：

1、數據壓縮：通過MLA架構和FP8混合精度（ChatGPT使用FP16，精度更高，需要的算力就大好多倍），減少數據量，降低內存占用。

2、選擇性處理：優先處理重要數據，簡化次要數據，提高訓練效率。

3、知識蒸餾：利用“教師模型”生成高質量數據，加速“學生模型”訓練。

據《每日經濟新聞》報道，去年12月27日DeepSeek-V3發布後，許多試用者發現一個奇怪現象，當你問DeepSeek“你是什麼模型”時，它會回答：“我是一個名為ChatGPT的AI語言模型，由OpenAI開發。”它還補充說：“是基於GPT-4架構。”

《每日經濟新聞》採訪了一些AI專家，他們分析可能是DeepSeek-V3模型使用了ChatGPT-4生成文本的公共數據集，對這些數據集進行“知識蒸餾”（即上述第3點），用簡便的方法獲得新模型需要的有效數據（不必像原創模型那樣從海量數據中通過大量試錯獲得）。使用這些數據訓練新模型時，新模型會記住數據的源頭特徵並反芻表達。

12月27日，OpenAI的CEO 奧特曼（Sam Altman）在X上發帖說：

“複製你知道有效的東西是（相對）容易的。

當你不知道某件新奇、有風險且困難的事情是否會成功時，去做它是極其困難的。”

有媒體立刻猜測，這是奧特曼在諷刺競爭對手使用OpenAI的現成數據。而且這也可能是DeepSeek能夠在低算力低成本條件下，快速訓練出與ChatGPT效果類似的新模型的重要原因之一。

簡單歸納，DeepSeek使用的實現低成本快速訓練AI大模型的上述三種方法中，第1種“數據壓縮”和第2種“選擇性處理”都屬於DeepSeek的開創性架構設計和工程技術創新。而第3種“知識蒸餾”則留下bug，因為使用別的原創模型輸出的數據訓練自己的新模型，造成的結果是你的新模型的輸出結果，永遠不可能超越原創模型。

三、三點結論

分析到這裡，現在我可以嘗試回答大家都關注的最核心問題：DeepSeek的橫空出世會不會顛覆美國一路領先的全球AI格局？DeepSeek會給全球AI發展帶來哪些積極影響？

我有三點不太成熟的結論供大家參考：

1）DeepSeek的低成本快速成型模式，首先從方法上對AI行業造成巨大的思想衝擊，富有啟發性，將強有力地推動其它AI公司改變以前一味強調高投入的思維定勢，轉向探索低成本快速搭建模型平台的技術可能性。我相信這種轉變一定會出成果。因此DeepSeek給全行業帶來的啟示意義重大。

2）DeepSeek目前使用的工程構思和技術策略能不能複製到其它AI平台的搭建，尤其是方法1和方法2，目前尚無定論，有待業內進一步嘗試和探索。如果能夠複製，那對AI行業的下一步發展將影響深遠。即使不能完全複製，哪怕是借鑑這種思路，如壓縮數據的架構設計和優先處理重點數據的技術創新，也將是非常積極的影響，很可能在不遠的將來帶來巨大成果，甚至是革命性的技術突破。

3）以DeepSeek目前的現有成果，無法改變美國引領AI的全球格局，也不會改變中國在AI領域模仿、學習和追趕美國的總體姿態。儘管DeepSeek的方法具有開創性，但DeepSeek的最終產品因為“數據蒸餾”依然缺乏原創，嚴格說來還是個山寨品。

“數據蒸餾”決定了DeepSeek輸出的基礎性產品無法超越原創AI大模型。而且“數據蒸餾”只能在別人已經原創的成果基礎上進行。

在更多的AI實際應用領域，如生物醫療服務、自動駕駛、AI機器人等還在開發的應用中，“數據蒸餾”在原創模型獲得成功前無法做到，在原創模型獲得成功後又可能遇到不會開源分享的難題（因為利益衝突），因而沒有用武之地。一切原創的AI應用模型，只能老老實實投入算力、時間和資金。這可能也是目前的DeepSeek無法從根本上改變全球AI格局的深層原因。

比如在市場潛力巨大的自動駕駛和AI機器人領域，目前領先的是馬斯克的特斯拉。根據特斯拉FSD自動駕駛AI平台目前的迭代速度，它很可能在未來三至六個月內越過L4臨界點，達到完全無人駕駛標準（更高級別還有L5）。但特斯拉FSD無人駕駛實現後，原創者不大可能在短時間開源分享數據和算法，讓競爭對手通過“數據蒸餾”快速萃取而分享或蠶食自己的市場。這類有市場前景的AI應用只能依賴於原創而不是山寨。反而是一些涉及公共服務的領域如生物醫療等AI應用，倒有可能更快地開源分享。

更多精彩內容請看：

1）萬維博客“雷歌視角”：

https://blog.creaders.net/uindex.php

2）油管頻道“雷歌視角”：

https://www.youtube.com/channel/UClfm_D5GrSVn59znfs8JD1g

歡迎關注“雷歌視角”，幫你挖掘新聞背後的新聞。

歡迎訂閱、轉發和點讚。謝謝！


			文章評論

作者：雷歌747 回復破棉襖

留言時間：2025-01-28 14:14:18

數據壓縮和選擇性處理，涉及到平台的基礎架構和算法，怎麼能不重要？


	回復 \| 0 評論前需要先登錄或者註冊哦發表

作者：破棉襖

留言時間：2025-01-28 13:25:47

數據壓縮和選擇性處理，都不重要吧。最重要的是Deep Seek把後期那步監督微調（SFT）改進成了非監督強化學習，這樣捨去了標記數據瓶頸，模型性能提高的效率高了。這套方法應該能被別人運用，也就是說10%的算力達到接近100%的性能，如果施加100%的算力能到達到接近1000%的性能嗎？答案很可能肯定的。進而，施加1000%的算力，能到達10000%的性能嗎？如果答案肯定的話，AGI就實現了。


	回復 \| 1 評論前需要先登錄或者註冊哦發表

作者：轉個帖

留言時間：2025-01-28 13:11:35

屬於漸進性的改良，不具備突破性的意義。大吹大擂的目的很可能是對美國加緊芯片禁運的政策進行反宣傳。背後的希望可能是美帝放棄封鎖，然後用國家財力就能購入大量高階芯片建立軍用系統。

國家間戰略級的技術對抗依舊會依賴於複雜芯片系統的能力。所謂的“小米加步槍”打打兵無鬥志的國民黨軍可以，到了朝鮮戰場上，拿着蘇式裝備也干不過聯合國軍的飛機大炮。


	回復 \| 4 評論前需要先登錄或者註冊哦發表