近幾年是人工智能(AI)技術全面爆發的年代。以“語言大模型”為代表的新一代AI技術,不僅展現出令人驚嘆的能力,也迅速進入了多個行業的實際應用。AI由此成為社會關注的焦點和家喻戶曉的熱詞。 在這一背景下,2024年諾貝爾物理獎與化學獎雙雙授予了與AI相關的研究成果。其中物理獎頒給了約翰·霍普菲爾德(John Hopfield)與傑弗里·辛頓(Geoffrey Hinton),表彰他們在1980年代初對神經網絡的開創性貢獻。此舉在科學界和公眾中都引發了廣泛討論。一部分觀點認為,神經網絡屬於計算機科學範疇,其成果理應由圖靈獎等信息類獎項表彰;相反,也有人認為,神經網絡的發展受益於物理學方法,此次頒獎正是物理學對當代科技廣泛影響力的體現。那麼神經網絡與物理學到底有什麼深層聯繫呢? 雖然早期的研究工作,包括得獎者的工作,其動力之一都是更好了解人腦的運作,但如今說到“神經網絡”,自然缺省都是指“人造神經網絡”,即用芯片或計算機實現的,模仿神經結構而用來解決AI問題的系統,與神經生物學沒啥關係了。神經網絡如今已是人工智能的中流砥柱,特別是在大語言模型(如ChatGPT和DeepSeek)中扮演了核心角色。對於非專業人士而言,神經網絡、深度學習和AI幾乎是同義詞。神經網絡的基本原理已經有很多介紹了,本文只着重探討神經網絡早期發展時期的“物理基因”。 人們很早就認識到生物中神經網絡的神奇,而且嘗試幾種相關的數學模型。計算機問世後,這方面工作就便利了很多。20世紀80年代初,物理學家霍普菲爾德深受生物學中“網絡現象”的吸引,因而轉向生物和神經學。 1982年,他提出了結構簡潔卻具有聯想記憶功能的“霍普菲爾德網絡”。在該模型中,神經元之間通過連接形成網絡。在“學習”階段,連接的權重根據訓練數據調整,形成記憶;在“回憶”階段,輸入通過連接觸發神經元狀態更新,從而聯想出與之相符的記憶圖像。在前人工作基礎上,霍普菲爾德作出了一系列重要的推進。 首先,他考察的網絡里,神經元之間的連接是雙向對稱的。這種允許信號“反饋”的結構稱為遞歸神經網絡(Recursive Neural Network)。相比於當時的主流——信號單向傳播的“前饋神經網絡”(feedforward neural network),遞歸網絡能產生“記憶”的功能。但它的數學分析非常困難。霍普菲爾德意識到,在一個巧妙的“能量”定義下,這種網絡的動態演化過程與物理學中描寫“自旋玻璃”的“伊辛模型”相似:系統演化到一個具有能量極小值的狀態,從而“調出”記憶中的內容。這一模型首次將神經網絡的功能機制與物理理論相映照,為分析和理解這類“神經網絡提供了一個數學框架,而且可以借用物理中已有的研究成果,大大加速有關研究。 霍普菲爾德還採取了“湧現”(emergence)的視角(這與他對網絡現象的長期興趣有關)。他認為神經網絡的基本特性來源於神經元的巨大數量和它們之間的緊密連接,而與神經元和連接本身的細節關係不大。在這篇論文中,雖然他的數學分析只適用於很局限的情況,但他用仿真計算演示了:即使改變神經元和連接的很多性質(包括將連接改成非對稱),神經網絡的“記憶”功能仍然存在。這些觀察也對未來的研究提供了啟示。 因為存在反饋,“霍普菲爾德網絡”具有穩定態,所以各個神經元之間的狀態轉換不需要時間同步。這個特性不僅與實際的生物神經網絡情況更接近,而且也進一步揭示了這個模型相對於細節變動的穩健性。 雖然霍普菲爾德並非首次發明神經網絡,但他的工作讓這個技術廣為人知。不久,貝爾實驗室就演示了一個可以識別手寫阿拉伯數字的小規模網絡,儘管功能有限,卻顯現出神經網絡的巨大潛力。辛頓的工作也是受到霍普菲爾德的啟發和激勵才得以發生的。 辛頓隨後在霍普菲爾德網絡的基礎上進行了關鍵拓展。他引入了“隱藏層”,顯著增強了神經網絡的表達能力,並採用類似玻爾茲曼分布的隨機機制,防止系統陷入局部極小值。這種設計被稱為“玻爾茲曼機”,在當時展現了神經網絡通向更複雜功能的可能性,也是後續“深度學習系統”的雛形。 霍普菲爾德和辛頓的早期研究深受物理學影響。因此,儘管神經網絡在今天屬於工程領域,但其理論起源本身與物理學有直接的淵源。將物理獎授予兩位在神經網絡領域做出基礎性貢獻的研究者,可說是實至名歸。 然而,自1980年代以來,神經網絡曾長期處於邊緣地位。彼時AI整體前景並不被看好,神經網絡也並非AI主流技術路線。霍普菲爾德本人未持續深耕神經網絡方向,其後續研究主要轉向神經生物學,並因相關成就獲得狄拉克獎章等榮譽。 在霍普菲爾德的成名博士學生中,大多數並未選擇繼續研究神經網絡,唯一的例外是Terry Sejnowski,後來成為辛頓的重要合作者。 神經網絡的真正“復興”始於2010年代。在圖像識別、自然語言處理和棋類遊戲等領域,“深度學習”取得了突破性進展,並最終成為推動AI發展的主力。但此時的神經網絡體系已經與霍普菲爾德和辛頓當年提出的理論框架大相徑庭。包括自旋系統、玻爾茲曼機在內的物理概念在現代深度學習工程中也鮮有提及。 因此,準確而言,霍普菲爾德與辛頓的貢獻並非是提供現代深度學習的直接基礎,而是他們最初展現了神經網絡作為研究方向的潛力,並激勵少數研究者在低潮時期堅持探索,為AI的今日成就提供了思想與方法上的啟發。 然而,即使在今日神經網絡蓬勃發展的背景下,物理學仍可能為其未來演進提供關鍵助力。 儘管神經網絡得到廣泛應用,我們對其的本質理解依然有限。當前的技術進展,在很大程度上依賴於算力、數據的粗暴堆積以及工程上的大量試錯。對神經網絡系統的基本問題——如其泛化能力、學習機制以及與人類智能的融合方式——依然缺乏系統性理論支撐。 為此,學界正嘗試引入更嚴謹的數學工具,例如“微分幾何”可用於刻畫網絡的學習路徑,“信息幾何”描述模型與數據的契合程度,“推廣上限”則評估模型在訓練數據之外的表現等。然而,神經網絡作為高度分布式系統,其功能非常依賴整體協同,這使得傳統“還原論”風格,重視局域分析的數學工具往往難以發揮作用。 這一挑戰與物理學在研究“強關聯體系”時所面臨的問題頗為相似,強關聯體系同樣無法通過“還原”,分析局部結構來理解整體行為。霍普菲爾德當年用來類比的“自旋玻璃”就屬於這類體系。經過此後近半個世紀的積累,物理學在處理這類複雜系統方面的工具與方法有了很大提升,例如2021年得獎的複雜系統研究和2016年得獎的拓撲相變。這些新進展也許能成為神經網絡研究的“他山之石”。 此外,物理學一貫強調理論與實驗的結合,這在研究人工神經網絡時亦有借鑑價值。還是用凝聚態物理為例:雖然我們能完全預測每個電子和每個原子核的運動,但不可能由此嚴格推出整個固體的性質。相反,我們構造基於實驗觀察和基本量子概念的簡化理論,如能帶,聲子,庫帕對等等,來幫助我們定性和定量地研究宏觀性質。同樣,雖然我們完全了解神經網絡中“神經元”和“連接”的微觀機制,但是由於網絡的複雜性,其整體行為的理解仍需依賴實驗觀察與模型抽象的協同推進。 其實,霍普菲爾德1982年的劃時代論文,就是用物理方法研究神經網絡的範例。文中既有嚴格的數學推導,也包括了從計算機仿真中觀察到的現象,還有高度簡化的數量級估計並與仿真結果的比較。這些都是物理研究中常用的手段。當然,今天的神經網絡遠比當年複雜,我們要研究的問題也遠比當年深入。所以霍普菲爾德的研究方法並不能被複製。怎樣用好物理的“工具箱”,仍然是個非常值得探索的問題。 不僅如此,物理學還對神經網絡的發展提出了新的要求。例如“物理信息神經網絡”(Physics-informed Neural Networks)正成為一個新興方向,它要求神經網絡在擬合數據的同時遵守已知的物理規律,以用於建模物理系統和求解偏微分方程等複雜問題。 總的來看,物理學不僅是早期神經網絡誕生的“催化劑”,如今也可能繼續扮演它的“助推火箭”。 值得一提的是,兩位獲獎者中,辛頓因其在AI界的長期活躍早已為人所熟知;而霍普菲爾德相對低調。但事實上,他在物理學界本就享有極高聲譽。他得到博士學位不久,就因在光電子學的研究獲得美國物理學會巴克利獎(Oliver E. Buckley Prize),並在三十一歲就獲得普林斯頓大學的教職。早在1982年提出神經網絡模型前,他已當選為美國國家科學院和美國文理科學院院士,之後又因其神經網絡與另外兩個神經生物學的研究獲得狄拉克獎章(Dirac Medal of the ICTP)。巴克利獎和狄拉克獎都是物理界公認的最高檔次獎項,很多得獎者後來取得諾貝爾獎。霍普菲爾德的成就表明,“霍普菲爾德網絡”並非偶得靈感之作,而是長期物理學思維與訓練的自然結果。 神經網絡本是一個“非自然”的數學構造,卻在當時引起一些物理學家的興趣,這並非孤例。我們今天不可或缺的萬維網,也是誕生在物理實驗室。這些例子說明,物理學不僅是一門自然科學,更是一種極具創造力的思維方式和研究方法。正如霍普菲爾德在訪談與諾貝爾獎演講中所強調的,物理的意義不止於解釋自然現象,更在於提供一種系統理解與建模複雜系統的方法論。物理學對於人類進步的貢獻,除了原子能,激光,半導體這種“瓜熟蒂落”的成果,也有像萬維網,神經網絡這種“無心插柳”的收穫。 因此,2024年諾貝爾物理獎的授予,並非對AI熱潮的簡單迎合,而是對物理學思維方法長期貢獻的致敬。“神經網絡”的旅程也再次提醒我們,基礎科學的力量,往往以最難以預見的方式,深刻塑造着技術與知識的未來。
|