幾句話談DeepSeek
沙河
科技研發就像走迷宮,一路過去有許多分岔。每個分叉口有多個選擇: 左拐,右拐,後退或其它。
大概可以這麼說,在AI 大模型研發迷宮路徑的一個分叉口上,目前所有AI公司都跟它們的先行者,openAI一樣往左拐。只有DeepSeek 選擇了 右拐。結果發現,向右拐才是捷徑(至少目前看來是)。
左拐,在這裡是指在大模型後訓練中使用監督學習微調; 右拐,採用純強化學習。
Deep Seek另闢蹊徑,右拐,可能因為強化學習是它們的強項。而多年前,openAI 沒有右拐,可能因為當時強化學習才出來不久,他們還沒有掌握這一技術。
強化學習源於優化算法中的動態規劃(dynamic programming)。AI的 強化學習就是讓大模型神經網絡根據動態規劃的算法不斷更新參數。
通過強化學習可以培養AI 大模型的推理能力,掌握用數學方程表述的人類知識(在這之前AI 學會的都是用文字表述的人類知識), 比如廣義相對論,量子力學等等。筆者過去一、二年裡就多次建議中國AI ,特別是AGI, ASI 的研發者,關注強化學習。
但是強化學習/動態規劃有點難。 它在計算機算法的教科書裡是靠後的,許多未來的馬工沒學明白就翻過去了。在人工智能機器學習的教科書裡,老的沒有強化學習,新的也是靠後。
對強化學習/動態規劃的技術掌握最好的包括從事計算金融/量化金融的研發人員,他們開發的量化交易模型幾乎都是基於動態規劃。(掌握強化學習動態規劃技術的還包括從事軍工研發,比如導彈火箭衛星的技術人員。前幾年在車禍中去世的一個被稱為軍中頂尖人工智能專家的,就曾經在哈佛進修過強化學習)。
DeepSeek團隊從量化金融算法的研發轉過來,強化學習是他們的看家本領, 運用於AI 大模型更是輕車熟路。所以他們後來居上,一鳴驚人,是在意料之中。DeepSeek的成就是實質性的突破,說可比當年蘇聯的Sputnik衛星並不為過。說他們的模型是套殼的,是剽竊的,是外行話。
|