現在世界上人工智能界只剩下兩大玩家,美國和中國,其他國家都已經出局。 法國不服氣,前不久推出一款自己的AI模型,叫做 露茜(Lucie),雖然名字很浪漫,但這位法國美女明顯胸比腦大,居然算不出 5 x(2+3)等於多少,還很認真地回答用戶的調侃”Cow's egg"是什麼東東。結果這款AI模型三天就狼狽下架。 歐洲其他國家和日韓連試一試的勇氣都沒有,只能仰視擂台上中美這兩位泰森級選手互撕。 美國科技有七巨頭,人們把它們叫做 Magnificent 7,. Alphabet、亞馬遜、蘋果、Meta、微軟、英偉達和特斯拉,Mag 7 市值總共17萬億美元, 7個老闆的個人財富總值8000億美元。這幾家公司研發的語言大模型(LLM) ,包括Google的Germini, 微軟的OpenAi,Meta 的Llama, Anthropic的Cloud Sonnet等代表了最前沿的AI技術,可這些模型都是燒錢的祖宗,燒錢的速度連華爾街大佬都喊“吃不消”, 模型訓練費用動輒幾億幾十億, 關鍵是雖然取得了驚人的發展,但依然停留在AI階段,無法達到人類真正渴望的AGI的水平。AI和AGI的區別在於前者只能模仿人腦,後者AI能夠生成人類不具有的智慧。 DeepSeek的出現徹底改變了AI的發展模式,DeepSeek推出的語言大模型 V3 和 推理大模型 R1的訓練成本只占美國大模型訓練成本的5%-10%,這就大大地降低了AI的門檻,把原本富國巨賈才玩得起的AI遊戲變成了大家都可參與的科技競賽。即使是華爾街對於DeepSeek的出現也持正面態度, DeepSeek讓華爾街大佬有一種被被硅谷大佬戲弄的感覺,成了冤大頭。DeepSeek R1剛剛出爐沒有兩天,有人就披露了一份Meta Llama研發部門的內部郵件,郵件說DeepSeek的整個學習成本和我們團隊經理的薪水差不多,而我們團隊這樣薪水的經理有幾十個。大家準備好,“變革”即將來臨。傻瓜都知道,所謂的變革就是裁員。 DeepSeek掀起了一陣AI旋風,也激起了硅谷的仇恨。OpenAI公開指責DeepSeek涉嫌“蒸餾”ChatGPT知識,違背了該語言大模型的服務條款, 聲稱要配合美國司法部解決這個問題。 白宮數字貨幣和人工智能“沙皇” Sacks 表示:“......over the next few months is our leading AI companies taking steps to try and prevent distillation ... That would definitely slow down some of these copycat models。” Sacks把DeepSeek模型蔑稱為“copycat"。福克斯經濟節目支持人,極端仇中的Bartiromo在節目裡嘲笑道:"DeepSeek所謂的500萬學習成本完全是wildly made up.” 各種陰謀論也紛紛出籠,有的披露DeepSeek所屬的杭州Quant量化公司其實儲備了五萬片英偉達最先進的H100芯片, 這些芯片無疑被用在DeepSeek的研發之中,而且成本沒有被計算在內,有的說DeepSeek推出的初版即終極版的做法十分反常,國家操縱痕跡明顯。。。 OpenAI CEO Sam Altman是個天才,ChatGPT就是由他領導的團隊開發的,但他卻是極具爭議性的人物,有人說他什麼都幹得出來,他的妹妹指控少年時曾遭受過Altman的猥褻強姦,Altman完全否認這一指控,她正式提告法庭。提告背後的真實動機是什麼我們不得而知,很可能是為了錢, 但妹妹指控哥哥性侵是非常嚴重的指控,即使在美國這樣見怪不怪的國家也不常見。他現在帶頭攻擊DeepSeek通過蒸餾技術竊取OpenAI模型知識說明他沒有底線,語言大模型靠的就是公域數據,ChatGPT攫取各類文獻,科學研究報告,政治經濟研究分析數據時,也沒有一家家去先徵得作者或出版商的同意, ChatGPT反芻出來的AI報告就是這些公域數據的聚集。 現在你altman出來指責DeepSeek竊取了你的知識產權,等於是把公域數據當成自己的知識產權了,這有點兒搞笑。Altman指責DeepSeek後面的動機不言而喻,DeepSeek動了他的奶酪,投資者如果以DeepSeek的成本來衡量OpenAI,非但OpenAI的市值會立刻暴跌,整個AI業的泡沫也立刻被戳破。 所謂的蒸餾技術是指所謂的“學生小模型”通過提問向“老師大模型”汲取思維方式的學習過程,這種方法能夠使得學生模型的智能無限地接近老師模型的智能,但卻無法超越老師模型的智能,DeepSeek也許會通過對話獲得其他大模型的思考模式,啟動自己模型神經元的激活函數,但DeepSeek語言模式有其獨特性和結構優化性,這才是它的驗算和coding方面超越ChatGPT的根本原因,有AI學者表示兩個大模型之間的data scrubbing 在技術上既不可行,也不划算。DeepSeek如果想全盤抄襲ChatGPT,就必須scrub ChatGPT的所有公域數據,這明顯不是划算的買賣。 DeepSeek是開源模型,它的思考模式和驗算過程是公開透明的,它的研究報告公開表明560萬是模型訓練成本,這可以通過token的使用量來驗證,無法作假。至於它擁有的英偉達高階H100芯片數量是個未證實的猜測,可能有,也可能沒有。但這沒有改變DeepSeek已經成為世界頂級語言模型的事實,法國沒有受到制裁,可以任意使用高階芯片創建大模型,"露茜小姐"就是英偉達H100芯片做成的,可卻笨的出奇。
短短幾天,網絡上已經出現了幾十個通過學習DeepSeek建成的語言模型,DeepSeek沒有指責這些模型竊取自己的AI知識,這些學生模型恆可能將來會演變成和ChatGPT或DeepSeek一樣的頂級模型,造福於人類,這是好事。通過打壓對手來保持自己的優勢只有在對手處於劣勢之際才有效,如果對手和自己一樣強大,打壓只能延緩對手的鵲起,不能增強自己的優勢。美國前商業部長雷蒙多在臨下台之間這種做法稱之為“a fool's errand." 雷蒙多本人就是打壓中國的打手。
據說美國現任商業部長魯特尼克正在考慮把對華芯片制裁範圍擴大到H-20. H-20芯片的算力只有H-100的五分之一,是H-800 (DeepSeek模型使用的芯片)的四分之一。 如果真的如此,沒準兒中國下一代語言模型會在H-20芯片上再創奇蹟。
|