按: 年初 DeepSeek 橫空出世時,海內外眾議紛紜,什麼“偷竊”,“蒸餾”啊 等等。 儘是嘲諷、猜疑。沙河的博文,在國際業界大v和CEO們表態之前,第一時間從專業角度肯定DeepSeek 的原創性。今天,在梁文鋒入選英國“自然”雜誌年度人物之際,回頭看這幾篇博文,深為作者的真知灼見所折服。


幾句話談DeepSeek
沙河
科技研發就像走迷宮,一路過去有許多分岔。每個分叉口有多個選擇: 左拐,右拐,後退或其它。
大概可以這麼說,在AI 大模型研發迷宮路徑的一個分叉口上,目前所有AI公司都跟它們的先行者,openAI一樣往左拐。只有DeepSeek 選擇了 右拐。結果發現,向右拐才是捷徑(至少目前看來是)。
左拐,在這裡是指在大模型後訓練中使用監督學習微調; 右拐,採用純強化學習。
Deep Seek另闢蹊徑,右拐,可能因為強化學習是它們的強項。而多年前,openAI 沒有右拐,可能因為當時強化學習才出來不久,他們還沒有掌握這一技術。
強化學習源於優化算法中的動態規劃(dynamic programming)。AI的 強化學習就是讓大模型神經網絡根據動態規劃的算法不斷更新參數。
通過強化學習可以培養AI 大模型的推理能力,掌握用數學方程表述的人類知識(在這之前AI 學會的都是用文字表述的人類知識), 比如廣義相對論,量子力學等等。筆者過去一、二年裡就多次建議中國AI ,特別是AGI, ASI 的研發者,關注強化學習。
但是強化學習/動態規劃有點難。 它在計算機算法的教科書裡是靠後的,許多未來的馬工沒學明白就翻過去了。在人工智能機器學習的教科書裡,老的沒有強化學習,新的也是靠後。
對強化學習/動態規劃的技術掌握最好的包括從事計算金融/量化金融的研發人員,他們開發的量化交易模型幾乎都是基於動態規劃。(掌握強化學習動態規劃技術的還包括從事軍工研發,比如導彈火箭衛星的技術人員。前幾年在車禍中去世的一個被稱為軍中頂尖人工智能專家的,就曾經在哈佛進修過強化學習)。
DeepSeek團隊從量化金融算法的研發轉過來,強化學習是他們的看家本領, 運用於AI 大模型更是輕車熟路。所以他們後來居上,一鳴驚人,是在意料之中。DeepSeek的成就是實質性的突破,說可比當年蘇聯的Sputnik衛星並不為過。說他們的模型是套殼的,是剽竊的,是外行話。

DeepSeek 竊取美國的技術了嗎?
沙河
一大早起來看到,“白宮AI 顧問認為DeepSeek 可能竊取了美國的技術”。看了一下,注意到其指控是:DeepSeek疑似利用「蒸餾」技術盜用open AI模型輸出成果。
這個可能是對的。Deepseek確實可能利用蒸餾技術獲取數據用於自家模型的訓練。 它們似乎也沒有否定,還把幾個蒸餾模型掛在網上。但這不是竊取技術。說盜取數據,就準確多了,微軟和open AI就是怎麼說的。
重點是,利用蒸餾數據訓練並不是DeepSeek 取得成功的關鍵。DeepSeek 之所以能夠後來居上,一鳴驚人,是因為兩項原創技術/算法:
一,在大模型構架 上,開發出Multi-Head latent Attention(MLA)和 MOE架構,優化網絡通訊路徑,訓練模型省時 省電省(算)力。
二, 在大模型“後訓練”上採用直接強化學習, 使得模型展示出更高的智能,在 數學 、編程和推理的表現上尤為突出。
這裡,第二項遠比第一項重要。省時省電省算力,當然好,但這些都是錢可以解決的。而”用錢可以解決的事都不是事”,這句話在AI 界更成立。
用錢不能解決,至少不能很快解決的是,如何迅速提高智能?
人工智能模型的最終比拼是其產品的智能高低。超級智能 叫ASI, 最高的無所不知的是Digital God (數碼神)。“得AI者得天下” 這個說法的終極意思應該是, “得數碼神者得天下”。 什麼意思?筆者兩年前的文章對此有解釋:
“Digital God (DG), 就是像上帝一樣無所不知的人工智能。 人類知道的, DG知道;人類不知道的,DG也知道。DG 可望發現可科學,幫助人類解決重大問題。
"比如說,如果問DG,怎樣獲得室溫常壓超導材料? 它可能會告訴你, 把什麼什麼材料按什麼什麼比例混合,在什麼溫度和什麼壓力下冶煉, 然後再怎麼怎麼淬火等等,可得室溫常壓超導材料。如此這般,世界上百多個凝聚態物理材料物理團隊幾十年來苦心孤詣而不得的材料,一舉得來。
"再比如說, 當地球人面臨危機時, 如何迅速逃離地球?馬斯克等人類想到的是坐飛船去火星。( 不可行, 太遠, 也不宜居)。 DG可能會告訴你,可以如此這般造一個蟲洞,從蟲洞走, 達到另一宇宙上的一個可居行星。 從蟲洞走, 逃離地球, 搞得好只有一步之遙,可以瞬間到達 。
”
普通人看了這幾句話,一頭霧水,沒關係。如果中美政府高層和業界高層,沒聽說或者不明白這幾句話,可能會有嚴重後果。但是,據筆者所知,至少有一個人明白,他就是openAI的CEO 。筆者看過他兩年來訪談節目,知道他的目標是DG, AI 的星辰大海。

向梁文鋒同志學習
沙河
60多年前,毛澤東大筆一揮,寫下“向雷鋒同志學習”, 開啟了一個人心向善的時代。今天,如果習近平能像當年的毛澤東一樣,大筆一揮,改一個字,加一個字, 寫下“向梁文鋒同志學習”,則可開啟一個人心向學的時代,有望在第四次工業革命中,國運長盛不衰。
梁文鋒是第四次工業革命初期的英雄,也是中華民族幾千年歷史上真正的英雄之一。為什麼加定語“真正”? 因為,中國近現代歷史上不少家喻戶曉的英雄 ,其實盛名難副。
袁隆平被稱為“讓中國人民吃飽飯”的英雄。但內行人說,袁隆平的雜交水稻主要的用途是牲口飼料,而不是為人民果腹。當代的傳染病專家鍾南山好像也有英雄或(無雙)國士的稱號。不過,許多人都此有非議。
梁文鋒的同鄉、跳水運動員全紅嬋也被許多人看成英雄, 她的老家跟梁的一樣,門庭若市。實際上,全跟梁不好相提並論。且不說奧運冠軍眾多,他們的成就/表現/表演充其量有點觀賞價值,對社會進步沒有任何意義上推動,不論是直接的還是間接的。
比較接近梁文鋒的有數學家陳景潤。他是四、五十年前”向科學進軍”時代的英雄,激勵了一代莘莘學子。他的成果對數學研究有推動作用,雖然沒有實際應用上的價值,但他的事跡推動了當時社會的人心向善、人心向學。
不同於馬雲等電商時代的財富英雄,他們主要靠捷足先登; 也不同李彥宏等早期的AI探索者,他們雖然率先起步,但囿於創新能力,未能脫穎而出。
橫豎比較梁文鋒和各路英雄,愈發顯得他難能可貴。 饒毅稱DeepSeek 是百多年來中國最重要的科技成果,沒有之一。此話不虛。
梁文鋒無疑是學霸。但在學霸一詞被濫用的年代,僅僅說他是學霸顯得含糊不清。一個更用力的比較是,梁的團隊擊敗了阿里和百度的AI團隊,而這兩個團隊富含包括斯坦福和伯克利教授在內的學霸。而且,梁文鋒不僅僅是單純的學霸,也很強的組織能力。就像歐本海默之於曼哈頓計劃一樣,梁文鋒網羅各方英才,卓有成效地完成了人工智能的“曼哈頓計劃”的第一階段。
當我們倡導人心向善、人性向學的價值觀時,推崇像梁文鋒這樣一己之力扭轉國運的英雄時,也不要忘記那些迫害賢良志士、破壞和諧社會的罪人。過去二十多年來,參與造謠誹謗、海外追殺哈佛博士陳琳的團派打手、中國青年報匪徒就是這樣的罪人。
|