引火百度的余凱-汪翔-萬維博客-萬維讀者網（電腦版）

網絡日誌正文

		引火百度的余凱	2026-02-02 07:27:38

作為中國深度學習範式的破冰，引火歸鄉者，第一個將系統帶回中國、落地大廠並實現工業化轉折的代表，余凱帶回的先進認知體系，使中國AI得以提前洞悉時代趨勢，贏得寶貴的先發優勢，避免行業爆發期（如2015–2020窗口期）的推遲。

如果說辛頓點燃了理論火種，那余凱就是將其焊入中國現實、點燃產業引擎的實幹家。

早期成長並不像那些一出場就光芒四射的少年天才故事，而是一段漫長安靜，在邊緣反覆試探坐標的旅程。山西陽泉的冬天總是灰濛濛的，煤塵和寒風混在一起，裹挾着小城的節奏。

出生、成長在這，祖籍江西。和李彥宏是老鄉，但命運軌跡從開始就不同。1990年代初，最頂尖的學生都擠破頭往清北沖，或直接出國，1994年的余凱卻選擇了昔日古都，就讀南京大學電子科學與工程學系。本科四年，他坐在老校區有些陳舊的教學樓里，聽着電路、信號處理的課，腦子裡開始琢磨更抽象的東西：機器，怎麼才能看懂世界？

計算機視覺處在蠻荒時代，模式識別大多靠手工提取，神經網絡被主流學界視為死胡同。初生牛犢，卻像着了魔，從本科開始就痴迷。研究生階段，已經開始用神經網絡做語音處理實驗。1999年，第一次參加全國性學術會議，他投了篇關於神經網絡的論文，直接拿了最佳論文獎。隨後，默默把證書收進抽屜，繼續埋頭推公式。他話不多，性格內斂，書生氣十足，對每條推導都有近乎強迫症的嚴謹。

2002年，前往德國。在慕尼黑大學接受嚴格的數據挖掘與機器學習訓練，實驗室氛圍相對自由。但當時的AI學術圈殘酷，神經網絡正處於第二次寒冬，主流都在追支持向量機和統計學習。

他沒有急功近利，安靜的坐在小隔間，一遍遍推導那些層層疊疊的神經元連接。慕尼黑的冬天漫長而陰冷，他常常獨自在圖書館待到關門，屏幕上的公式像雪花堆積。過的孤獨，卻也自得其樂。正是這種沉得下來，容忍得住被主流忽略的狀態，讓他避開了範式干擾，悄然築起一套獨立的知識體系。

2004年博士畢業後，先去了西門子中央研究院做高級研究員。進入商業開發的實戰第一線，所有模型和代碼都必須在海量、嘈雜的真實用戶數據上運行。檢驗成果的標準是上線後殘酷的業務指標，研究的唯一目標是以最快速度和最高效率創造商業價值。

兩年後，轉戰NEC美國研究院，在硅谷的媒體實驗室擔任主任。當時深度學習被學界打入冷宮，但NEC在偷偷養着一批人，悶聲幹大事。早年匯聚了楊立昆、弗拉基米爾·瓦普尼克這樣的傳奇人物。瓦普尼克是統計學習理論的奠基者，支持向量機 (SVM) 的共同發明人，計算機學習理論先驅。楊立昆是卷積神經網絡 (CNN) 之父，深度學習三巨頭之一，2018年圖靈獎得主。

辛頓、楊立昆、瓦普尼克這些人，屬於戰場上的元帥、統帥、戰略家，發明武器（CNN、SVM、反向傳播理論）、繪製地圖（深度學習範式、統計學習理論）、點燃第一把火（AlexNet的勝利）。他們決定“打什麼仗”，“用什麼打法”，他們的論文就是軍令，算法就是兵器原型。他們是“定調者”，“開山祖師”，地位高遠，像統帥一樣俯瞰全局。

余凱是身披戰袍的將軍，接到軍令後排兵布陣，帶着部隊衝鋒陷陣的前線主將。在這裡首次主導大規模實戰，他運籌帷幄，將成千上萬張圖片視為麾下士兵與戰馬，俯身於戰線細節，逐幀緊盯算法在不同光照、角度下的微小偏差，以精確到像素的調校，贏得工業戰役。

生理上枯燥，精神上充實。日復一日地標註、調試、迭代，眼睛酸澀，手指在鍵盤上敲出節奏。但他看到了希望和關鍵節點所需：深度學習的方向沒錯，但受限於算力，無法發揮潛力。只要算力再翻幾個量級，就肯定能爆發。

機會不負有心人，終於來了。2010年，李飛飛的首屆 ImageNet 大規模視覺識別挑戰賽啟動。那一年，大多數人甚至沒有意識到，一場將徹底改寫計算機視覺乃至人工智能命運的試驗，已經被擺上檯面。

故事還得從幾年前說起。

2006年前後，計算機視覺正處在一種微妙的停滯期。算法越來越精巧，論文越來越複雜，但現實中技術進步卻越來越慢。研究者們紙上談兵，反覆在幾個熟悉的數據集上打轉：PASCAL VOC、Caltech-101、Caltech-256。圍繞着那麼幾千張、幾萬張圖像，和區區幾十到幾百個類別，精耕細作。

精緻的模型在這些“小世界”里被打磨得近乎完美，卻始終無法跨出實驗室的門檻。

那時初回普林斯頓的李飛飛，年輕氣盛，英勇無畏，川妹子的潑辣勁十足。

她隱約意識到，問題不在算法，而在世界，太小太簡單太純粹。實際上，意識到問題所在的人應該不少，卻沒有一個人敢像她那樣，挑戰不可能。

如果機器真的要學會“看”，它看到的就不該是研究者精心挑選的精緻小樣本，而是一個近似真實世界的混亂集合。於是，她有了一個當時，聽着就魯莽而瘋狂的想法：建個視覺版的 WordNet！一個龐大的圖片帝國。那裡存在的，不是幾千張圖而是數百萬張，不是幾十類而是數千。迎合的不是學術上的“夠用”，而是可以滿足工程意義上的“過量”，足夠來個飽和打擊。

2007年，她離開伊利諾伊大學香檳分校（UIUC），回到普林斯頓，藉助於李凱的幫助，ImageNet項目正式啟動。實際上的難度，比她想象的還要大很多。沒有充足的經費，卻異想天開，要用一支小團隊追尋一個超級笨重的目標：從互聯網抓取圖像，把人類世界的視覺對象，一層層嵌進機器可讀的結構里。

到2009年，數據庫上線時，規模已經大到讓研究者們望而卻步：一千多萬張圖像，覆蓋兩萬多個類別，按 WordNet 的語義層級展開。它不只是個“漂亮的數據集”，而是塊未經馴化的原始大陸，新的星球。

1985年，由心理學家喬治·米勒領導的普林斯頓團隊開始構建 WordNet，試圖將人類語言抽象為機器可讀的邏輯。在普林斯頓深厚的符號邏輯傳統下，最小單位被定義為同義詞集合（Synset），它超越了單詞本身的字面排布，將語義作為組織核心。

這為後來的計算機視覺革命奠定了兩個關鍵的技術基石。

首先，它確立了層次化的分類學體系（Taxonomy）。WordNet 內部最核心的邏輯是其嚴密的上下位關係（Hyponymy/Hypernymy）。它明確規定了概念間的隸屬邏輯。例如，“哈士奇”是“犬科”的下位詞，“犬科”又是“哺乳動物”的下位詞。普林斯頓的學者們耗費數十年，手動梳理出數萬個這類邏輯鏈條。有了它，李飛飛後來就不需要從零開始，構建覆蓋萬物的分類邏輯，而是直接繼承已成型的語義樹。ImageNet 的 12 個層級和 2 萬多個類別，在本質上就是將海量圖像掛載到了 WordNet 的邏輯節點上。

其次，它提供了從“符號”到“感知”的跨越支點。儘管 WordNet 在語義邏輯上近乎完美，但它始終停留在符號層面。它能告訴機器“貓有四條腿”，卻無法給機器提供“貓”的像素表徵。可能正是因為李飛飛身處發源地，她比任何人都更早看清了這一局限：純粹的符號邏輯（Symbolic Logic）無法產生真正的智能，必須用海量的感官數據去填充這些邏輯框架。

真正的轉折發生在2010年。短暫的鐵牛沉大海之後，李飛飛的團隊意識到，單靠數據本身並不能推動整個領域前進。不同團隊各用各法、各選各的數據，各說各語，自說自話，彼此間無法比較，進步就慢，這是巨大的時間和資源浪費。她覺得，人們還是沒有看出，這麼巨大一個圖片數據集的潛在價值。

從這裡，你能看出李飛飛的真正厲害：她不僅敢做普通人覺得不可能的事，建了個世外桃源。而且，她還要逼着人們進駐，在裡面各顯神通，將它打造成真正伊甸園。這是不是受當年中國到處熱火朝天的地產開發啟發，只有她自己知道，或許連自己都不知道，只是冥冥之中接受了指引。

結果，她不僅是一個數據的建設者，更是一個行業生態的設計者。

就此她想到了競標，想到了擂台賽。她看着那些在舊數據集裡斤斤計較的學者，就像看着在狹窄死胡同里死磕殘局的棋手。她不打算入局，要在廣袤原野，再造一個萬馬奔騰的戰場。

或許在某個瞬間，她腦海中閃過那場中日圍棋擂台賽的往事：一紙賽約，舉世矚目，成就了聶衛平等眾多棋聖棋王。她領悟到，要改變一個時代的認知，僅僅靠邏輯是不夠的，還需要一場足以載入史冊的“勝負”對決。她要做的，就是為全世界的算法英雄，組織一場決定命運的擂台賽。

在2010年第一屆挑戰賽舉辦時，李飛飛人微言輕，卻展現出了川妹子特有的那股子靈氣與韌勁。或許是骨子裡帶着點諸葛故里的謀略基因，在資源幾乎為零的絕境下，她竟如老鄉孔明布局、又似劉皇叔起家那般，玩了一手極其漂亮的“借殼上市”。

當時視覺領域已有成名的小型競賽PASCAL VOC。面對這座已經穩固的“城池”，李飛飛無力強攻，也沒有資本另起爐灶，她選擇了“借雞下蛋”的策略。她指揮着稚嫩的ImageNet委身其中，以一個附屬子項目的名義低調潛入。就像當年劉備在落座荊州前，在那座彈丸小城“新野”暫時棲身。雖是寄人籬下，雖是厚着臉皮“沾香邊”，卻在默默觀察着天下大勢，積攢着改天換地的本錢。

李飛飛在這點上極其令人佩服：她不怕位卑，不怕被冷落，更不嫌棄這“新野小城”的寒酸。只要有一線機會，她就要試一下，而且是全力以赴。

當時的她窮得叮噹響，拿不出錢，也找不到願意掏錢的贊助商。早期的獎金微薄到近乎淒涼，很大一部分是由PASCAL VOC背後的組織機構，主要是那幫嚴謹卻死板的歐盟學術網絡分攤的。這筆錢與其說是“獎金”，不如說是一種象徵性的“差旅補助”，數額往往只有幾百到一千美元，有時甚至只是送一張當年頂級學術會議的入場券。

正如劉備在新野等到了諸葛亮，李飛飛也在這個學術界的“新野”里，等到了那個足以火燒博望坡的神跡。2012年，當辛頓帶着那兩塊冒煙的遊戲顯卡殺入賽場時，李飛飛終於告別了“借座新野”的窘迫，親手開啟了屬於深度學習的“三國鼎立”時代。

2010年的硅谷，黃仁勛正陷入一種宏大的孤獨。英偉達雖然靠顯卡賺得盆滿缽滿，但在老黃心裡，始終帶着種“玩物喪志”的原罪。那是給青少年消磨時光的玩具，不是改變世界的利器。

他瘋狂地推行“NVIDIA Academic Programs”，像個兜售靈藥的江湖郎中，敲開一間間頂級實驗室的大門，試圖說服那些穿白大褂的教授：“看在上帝的分上，別再盯着CPU了，我這兒有能算流體力學、能模擬宇宙爆炸的神器。”

但迎接他的，是禮貌而傲慢的拒絕。

那一刻的老黃，像極了七八十年代提着皮箱、滿世界推銷產品的台灣青年。在那份執着里，藏着不怕苦、不怕累、更不怕被人瞧不起的忍耐與臥薪嘗膽。而那些浸淫在手工特徵提取里的教授們，看着這個推銷員，眼神里懸浮的依然是那些複雜的數學算式，仿佛在說：科學是優雅的藝術，不是你手裡那塊發燙的塑料板。

當時的計算機視覺學界，正沉浸在“手工藝術”的巔峰。大牛們聚在一起，比拼的是誰的數學公式更優雅，誰設計的特徵（SIFT或HOG）更像達·芬奇的線條。在他們眼裡，搞AI是視覺的詩學，是邏輯的極致。

如果有人提議用“遊戲顯卡”來跑實驗，導師會扶一扶眼鏡，冷冷地拋出一句：“你是想在實驗室打《魔獸世界》，還是想自降身段去當個修電腦的機房管理員？”

甚至連正在泥潭裡苦苦掙扎的李飛飛，起初也沒把英偉達當成救世主。老黃送來的那幾塊顯卡和硬件代金券，更像是某種“學術公益”。這些顯卡被隨手扔在實驗室的角落，和過期的披薩盒擠在一起。它們在等待一個識貨的人，但那個識貨的人，甚至還沒付得起去參加學術會議的機票錢。

那時候的辛頓團隊，都沒有機會獲得來自英偉達的免費GPU！

【節選自《AI霸權：紀元啟示錄》（汪翔，即將出版）第七章第一節】有興趣在大陸和港台出版這本四十萬字，關於AI科技發展史，思想史的，請聯繫我。】


			文章評論

作者：汪翔

留言時間：2026-02-03 04:00:13

華人在AI江湖，人才眾多，將帥如林。

我慢慢的給他們（她們）寫英雄譜。


	回復 \| 0 評論前需要先登錄或者註冊哦發表