設萬維讀者為首頁 萬維讀者網 -- 全球華人的精神家園 廣告服務 聯繫我們 關於萬維
 
首  頁 新  聞 視  頻 博  客 論  壇 分類廣告 購  物
搜索>> 發表日誌 控制面板 個人相冊 給我留言
幫助 退出
雷歌視角  
讓沉默的思想如閃電,點燃我的文字,照亮這個世界。  
https://blog.creaders.net/u/31182/ > 複製 > 收藏本頁
網絡日誌正文
深度:DeepSeek 能不能顛覆全球AI格局? 2025-01-28 01:46:53

深度分析:DeepSeek 能不能顛覆全球AI格局?

雷歌 2025年1月27日


一夜之間,一款“純中國製造”的AI語言大模型DeepSeek風靡全球,也震撼了硅谷和華爾街。在蘋果應用商店,DeepSeek的下載量超過了ChatGPT等熱門應用,成為當日第一。而周一開盤的美股市場,以英偉達、博通和台積電為代表的AI概念股均暴跌超10%,納指暴跌超3%。

一、橫空出世

DeepSeek的獨門絕技,是相對於全球領先的AI語言大模型如ChatGPT等,只用了非常少的芯片算力和訓練成本(大概十分之一或更少),就做出了在功能上與可以與ChatGPT4相媲美的AI大模型平台。據媒體報道,DeepSeek在1月20日最新發布的R1模型,其預訓練費用只有557.6萬美元,在2048塊英偉達H800 GPU(性能比H100要差不少,制裁後專供中國)集群上運行55天就完成了。而美國一些領先的AI大模型平台,一般都要用1.6萬張以上的H100GPU芯片,完成一個大模型的訓練費用要5億美元以上。

(註:計算成本的方法和包括的範圍可能不同。因為H800芯片的市場價超過20萬人民幣,2048塊的總價值就超過6000萬美元,因此說DeepSeek-R1預訓練成本不到558萬美元,顯然不包含購買GPU集群和搭建平台的費用。)

DeepSeek帶來的衝擊,首先是美國大型AI公司每年幾百億幾百億地燒錢的模式受到質疑,還有沒有必要?搞得AI大廠都去搶購囤積英偉達GPU,英偉達芯片價格近年水漲船高,一片都要好幾萬美元。而英偉達股價也在2023至2024兩年間最高漲了超過十倍,超越蘋果微軟成為全球市值最大的公司。也正因為此,今天英偉達股價暴跌近17%,市值一天內就蒸發近6000億美元。

另一方面則是對組建AI大模型在技術策略上的啟發。DeepSeek的技術策略有沒有可能在其它平台複製和推廣,甚至成為新的主流技術策略選擇呢?多快好省地搭建AI平台,肯定是大勢所趨。如果技術上可行,就一定會成為必然選擇。但這一點,就目前能收集到的信息看,還是不確定的。DeepSeek-R1發布後,還有待於業內對它進行深度解構和評估,這需要一定時間。

這兩個方面是相互關聯的。顯然,如果多快好省的技術策略可複製,那目前美國大型AI公司的燒錢模式就立馬會被拋棄,短時間內英偉達GPU芯片可能就沒那麼香了(當然長遠看,英偉達芯片還是屹立不倒,因為組建AI平台的費用門檻大幅降低後,會有無數原先沒實力進入這一領域的中小公司進入,變成百花齊放,對英偉達GPU芯片的總需求說不定還會擴大)。

二、Bug與隱憂

DeepSeek-R1發布後,業內普遍驚呼這是出人意料的“黑科技”,全行業都受到巨大震動。專業人士分析,DeepSeek在架構設計和優化技術上進行了創新,包括混合專家架構(MoE)、多頭潛在注意力機制(MLA)、優化預訓練語料庫等。這些技術使得DeepSeek能夠在保持性能的同時,大幅度降低計算和存儲需求。

通俗一點說,就是以下做法:

1、數據壓縮:通過MLA架構和FP8混合精度(ChatGPT使用FP16,精度更高,需要的算力就大好多倍),減少數據量,降低內存占用。

2、選擇性處理:優先處理重要數據,簡化次要數據,提高訓練效率。

3、知識蒸餾:利用“教師模型”生成高質量數據,加速“學生模型”訓練。

據《每日經濟新聞》報道,去年12月27日DeepSeek-V3發布後,許多試用者發現一個奇怪現象,當你問DeepSeek“你是什麼模型”時,它會回答:“我是一個名為ChatGPT的AI語言模型,由OpenAI開發。”它還補充說:“是基於GPT-4架構。”

《每日經濟新聞》採訪了一些AI專家,他們分析可能是DeepSeek-V3模型使用了ChatGPT-4生成文本的公共數據集,對這些數據集進行“知識蒸餾”(即上述第3點),用簡便的方法獲得新模型需要的有效數據(不必像原創模型那樣從海量數據中通過大量試錯獲得)。使用這些數據訓練新模型時,新模型會記住數據的源頭特徵並反芻表達。

12月27日,OpenAI的CEO 奧特曼(Sam Altman)在X上發帖說:

  “複製你知道有效的東西是(相對)容易的。

   當你不知道某件新奇、有風險且困難的事情是否會成功時,去做它是極其困難的。”

有媒體立刻猜測,這是奧特曼在諷刺競爭對手使用OpenAI的現成數據。而且這也可能是DeepSeek能夠在低算力低成本條件下,快速訓練出與ChatGPT效果類似的新模型的重要原因之一。

簡單歸納,DeepSeek使用的實現低成本快速訓練AI大模型的上述三種方法中,第1種“數據壓縮”和第2種“選擇性處理”都屬於DeepSeek的開創性架構設計和工程技術創新。而第3種“知識蒸餾”則留下bug,因為使用別的原創模型輸出的數據訓練自己的新模型,造成的結果是你的新模型的輸出結果,永遠不可能超越原創模型。

三、三點結論

分析到這裡,現在我可以嘗試回答大家都關注的最核心問題:DeepSeek的橫空出世會不會顛覆美國一路領先的全球AI格局?DeepSeek會給全球AI發展帶來哪些積極影響?

我有三點不太成熟的結論供大家參考:

1)DeepSeek的低成本快速成型模式,首先從方法上對AI行業造成巨大的思想衝擊,富有啟發性,將強有力地推動其它AI公司改變以前一味強調高投入的思維定勢,轉向探索低成本快速搭建模型平台的技術可能性。我相信這種轉變一定會出成果。因此DeepSeek給全行業帶來的啟示意義重大。

2)DeepSeek目前使用的工程構思和技術策略能不能複製到其它AI平台的搭建,尤其是方法1和方法2,目前尚無定論,有待業內進一步嘗試和探索。如果能夠複製,那對AI行業的下一步發展將影響深遠。即使不能完全複製,哪怕是借鑑這種思路,如壓縮數據的架構設計和優先處理重點數據的技術創新,也將是非常積極的影響,很可能在不遠的將來帶來巨大成果,甚至是革命性的技術突破。

3)以DeepSeek目前的現有成果,無法改變美國引領AI的全球格局,也不會改變中國在AI領域模仿、學習和追趕美國的總體姿態。儘管DeepSeek的方法具有開創性,但DeepSeek的最終產品因為“數據蒸餾”依然缺乏原創,嚴格說來還是個山寨品。

“數據蒸餾”決定了DeepSeek輸出的基礎性產品無法超越原創AI大模型。而且“數據蒸餾”只能在別人已經原創的成果基礎上進行。

在更多的AI實際應用領域,如生物醫療服務、自動駕駛、AI機器人等還在開發的應用中,“數據蒸餾”在原創模型獲得成功前無法做到,在原創模型獲得成功後又可能遇到不會開源分享的難題(因為利益衝突),因而沒有用武之地。一切原創的AI應用模型,只能老老實實投入算力、時間和資金。這可能也是目前的DeepSeek無法從根本上改變全球AI格局的深層原因。

比如在市場潛力巨大的自動駕駛和AI機器人領域,目前領先的是馬斯克的特斯拉。根據特斯拉FSD自動駕駛AI平台目前的迭代速度,它很可能在未來三至六個月內越過L4臨界點,達到完全無人駕駛標準(更高級別還有L5)。但特斯拉FSD無人駕駛實現後,原創者不大可能在短時間開源分享數據和算法,讓競爭對手通過“數據蒸餾”快速萃取而分享或蠶食自己的市場。這類有市場前景的AI應用只能依賴於原創而不是山寨。反而是一些涉及公共服務的領域如生物醫療等AI應用,倒有可能更快地開源分享。


更多精彩內容請看:

1)萬維博客“雷歌視角”:

https://blog.creaders.net/uindex.php

2)油管頻道“雷歌視角”:

https://www.youtube.com/channel/UClfm_D5GrSVn59znfs8JD1g

歡迎關注“雷歌視角”,幫你挖掘新聞背後的新聞。

歡迎訂閱、轉發和點讚。謝謝!


瀏覽(3817) (10) 評論(3)
發表評論
文章評論
作者:雷歌747 回復 破棉襖 留言時間:2025-01-28 14:14:18

數據壓縮和選擇性處理,涉及到平台的基礎架構和算法,怎麼能不重要?

回復 | 0
作者:破棉襖 留言時間:2025-01-28 13:25:47

數據壓縮和選擇性處理,都不重要吧。最重要的是Deep Seek把後期那步監督微調(SFT)改進成了非監督強化學習,這樣捨去了標記數據瓶頸,模型性能提高的效率高了。 這套方法應該能被別人運用,也就是說10%的算力達到接近100%的性能,如果施加100%的算力能到達到接近1000%的性能嗎?答案很可能肯定的。進而,施加1000%的算力,能到達10000%的性能嗎?如果答案肯定的話,AGI就實現了。

回復 | 1
作者:轉個帖 留言時間:2025-01-28 13:11:35

屬於漸進性的改良,不具備突破性的意義。大吹大擂的目的很可能是對美國加緊芯片禁運的政策進行反宣傳。背後的希望可能是美帝放棄封鎖,然後用國家財力就能購入大量高階芯片建立軍用系統。

國家間戰略級的技術對抗依舊會依賴於複雜芯片系統的能力。所謂的“小米加步槍”打打兵無鬥志的國民黨軍可以,到了朝鮮戰場上,拿着蘇式裝備也干不過聯合國軍的飛機大炮。

回復 | 4
我的名片
雷歌747 ,4歲
註冊日期: 2022-06-17
訪問總量: 2,755,647 次
點擊查看我的個人資料
Calendar
最新發布
· 一次必將載入史冊的偉大演講——盧
· “軍中妖姬”湯燦網絡春晚復出,央
· 高市豪賭獲創紀錄大勝!日本修憲
· 新球王阿卡創造嶄新歷史 老球王
· 阿卡vs小茲維,一場史詩級的大逆
· 驚爆張又俠密信《說說我與近平的
· 張又俠向美國泄露核武機密?內線
分類目錄
【時政評論】
· 一次必將載入史冊的偉大演講——盧
· “軍中妖姬”湯燦網絡春晚復出,央
· 高市豪賭獲創紀錄大勝!日本修憲
· 新球王阿卡創造嶄新歷史 老球王
· 阿卡vs小茲維,一場史詩級的大逆
· 驚爆張又俠密信《說說我與近平的
· 張又俠向美國泄露核武機密?內線
· 張又俠被抓為何官宣這麼着急?軍
· 川普王八拳大殺四方 一天搞掂格
· 壞消息:張又俠劉振立證實被抓
存檔目錄
2026-02-01 - 2026-02-14
2026-01-02 - 2026-01-30
2025-12-01 - 2025-12-23
2025-11-02 - 2025-11-28
2025-10-01 - 2025-10-27
2025-09-10 - 2025-09-20
2025-08-09 - 2025-08-28
2025-07-02 - 2025-07-27
2025-06-05 - 2025-06-27
2025-05-06 - 2025-05-30
2025-04-03 - 2025-04-30
2025-03-03 - 2025-03-31
2025-02-03 - 2025-02-28
2025-01-19 - 2025-01-31
2024-12-02 - 2024-12-21
2024-11-03 - 2024-11-27
2024-10-02 - 2024-10-29
2024-09-10 - 2024-09-27
2024-08-03 - 2024-08-26
2024-07-13 - 2024-07-31
2024-06-02 - 2024-06-28
2024-05-01 - 2024-05-31
2024-04-03 - 2024-04-19
2024-03-01 - 2024-03-31
2024-02-08 - 2024-02-28
2024-01-04 - 2024-01-30
2023-12-01 - 2023-12-22
2023-11-01 - 2023-11-29
2023-10-03 - 2023-10-27
2023-09-03 - 2023-09-29
2023-08-03 - 2023-08-27
2023-07-04 - 2023-07-31
2023-06-03 - 2023-06-29
2023-05-03 - 2023-05-28
2023-04-02 - 2023-04-30
2023-03-02 - 2023-03-31
2023-02-06 - 2023-02-26
2023-01-18 - 2023-01-30
2022-12-01 - 2022-12-22
2022-11-03 - 2022-11-29
2022-10-05 - 2022-10-31
2022-09-06 - 2022-09-30
2022-08-02 - 2022-08-30
2022-07-02 - 2022-07-29
2022-06-16 - 2022-06-29
 
關於本站 | 廣告服務 | 聯繫我們 | 招聘信息 | 網站導航 | 隱私保護
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.