作為中國深度學習範式的破冰,引火歸鄉者,第一個將系統帶回中國、落地大廠並實現工業化轉折的代表,余凱帶回的先進認知體系,使中國AI得以提前洞悉時代趨勢,贏得寶貴的先發優勢,避免行業爆發期(如2015–2020窗口期)的推遲。 如果說辛頓點燃了理論火種,那余凱就是將其焊入中國現實、點燃產業引擎的實幹家。 早期成長並不像那些一出場就光芒四射的少年天才故事,而是一段漫長安靜,在邊緣反覆試探坐標的旅程。山西陽泉的冬天總是灰濛濛的,煤塵和寒風混在一起,裹挾着小城的節奏。 出生、成長在這,祖籍江西。和李彥宏是老鄉,但命運軌跡從開始就不同。1990年代初,最頂尖的學生都擠破頭往清北沖,或直接出國,1994年的余凱卻選擇了昔日古都,就讀南京大學電子科學與工程學系。本科四年,他坐在老校區有些陳舊的教學樓里,聽着電路、信號處理的課,腦子裡開始琢磨更抽象的東西:機器,怎麼才能看懂世界? 計算機視覺處在蠻荒時代,模式識別大多靠手工提取,神經網絡被主流學界視為死胡同。初生牛犢,卻像着了魔,從本科開始就痴迷。研究生階段,已經開始用神經網絡做語音處理實驗。1999年,第一次參加全國性學術會議,他投了篇關於神經網絡的論文,直接拿了最佳論文獎。隨後,默默把證書收進抽屜,繼續埋頭推公式。他話不多,性格內斂,書生氣十足,對每條推導都有近乎強迫症的嚴謹。 2002年,前往德國。在慕尼黑大學接受嚴格的數據挖掘與機器學習訓練,實驗室氛圍相對自由。但當時的AI學術圈殘酷,神經網絡正處於第二次寒冬,主流都在追支持向量機和統計學習。 他沒有急功近利,安靜的坐在小隔間,一遍遍推導那些層層疊疊的神經元連接。慕尼黑的冬天漫長而陰冷,他常常獨自在圖書館待到關門,屏幕上的公式像雪花堆積。過的孤獨,卻也自得其樂。正是這種沉得下來,容忍得住被主流忽略的狀態,讓他避開了範式干擾,悄然築起一套獨立的知識體系。 2004年博士畢業後,先去了西門子中央研究院做高級研究員。進入商業開發的實戰第一線,所有模型和代碼都必須在海量、嘈雜的真實用戶數據上運行。檢驗成果的標準是上線後殘酷的業務指標,研究的唯一目標是以最快速度和最高效率創造商業價值。 兩年後,轉戰NEC美國研究院,在硅谷的媒體實驗室擔任主任。當時深度學習被學界打入冷宮,但NEC在偷偷養着一批人,悶聲幹大事。早年匯聚了楊立昆、弗拉基米爾·瓦普尼克這樣的傳奇人物。瓦普尼克是統計學習理論的奠基者,支持向量機 (SVM) 的共同發明人,計算機學習理論先驅。楊立昆是卷積神經網絡 (CNN) 之父,深度學習三巨頭之一,2018年圖靈獎得主。 辛頓、楊立昆、瓦普尼克這些人,屬於戰場上的元帥、統帥、戰略家,發明武器(CNN、SVM、反向傳播理論)、繪製地圖(深度學習範式、統計學習理論)、點燃第一把火(AlexNet的勝利)。他們決定“打什麼仗”,“用什麼打法”,他們的論文就是軍令,算法就是兵器原型。他們是“定調者”,“開山祖師”,地位高遠,像統帥一樣俯瞰全局。 余凱是身披戰袍的將軍,接到軍令後排兵布陣,帶着部隊衝鋒陷陣的前線主將。在這裡首次主導大規模實戰,他運籌帷幄,將成千上萬張圖片視為麾下士兵與戰馬,俯身於戰線細節,逐幀緊盯算法在不同光照、角度下的微小偏差,以精確到像素的調校,贏得工業戰役。 生理上枯燥,精神上充實。日復一日地標註、調試、迭代,眼睛酸澀,手指在鍵盤上敲出節奏。但他看到了希望和關鍵節點所需:深度學習的方向沒錯,但受限於算力,無法發揮潛力。只要算力再翻幾個量級,就肯定能爆發。 機會不負有心人,終於來了。2010年,李飛飛的首屆 ImageNet 大規模視覺識別挑戰賽啟動。那一年,大多數人甚至沒有意識到,一場將徹底改寫計算機視覺乃至人工智能命運的試驗,已經被擺上檯面。
故事還得從幾年前說起。 2006年前後,計算機視覺正處在一種微妙的停滯期。算法越來越精巧,論文越來越複雜,但現實中技術進步卻越來越慢。研究者們紙上談兵,反覆在幾個熟悉的數據集上打轉:PASCAL VOC、Caltech-101、Caltech-256。圍繞着那麼幾千張、幾萬張圖像,和區區幾十到幾百個類別,精耕細作。 精緻的模型在這些“小世界”里被打磨得近乎完美,卻始終無法跨出實驗室的門檻。 那時初回普林斯頓的李飛飛,年輕氣盛,英勇無畏,川妹子的潑辣勁十足。 她隱約意識到,問題不在算法,而在世界,太小太簡單太純粹。實際上,意識到問題所在的人應該不少,卻沒有一個人敢像她那樣,挑戰不可能。 如果機器真的要學會“看”,它看到的就不該是研究者精心挑選的精緻小樣本,而是一個近似真實世界的混亂集合。於是,她有了一個當時,聽着就魯莽而瘋狂的想法:建個視覺版的 WordNet!一個龐大的圖片帝國。那裡存在的,不是幾千張圖而是數百萬張,不是幾十類而是數千。迎合的不是學術上的“夠用”,而是可以滿足工程意義上的“過量”,足夠來個飽和打擊。 2007年,她離開伊利諾伊大學香檳分校(UIUC),回到普林斯頓,藉助於李凱的幫助,ImageNet項目正式啟動。實際上的難度,比她想象的還要大很多。沒有充足的經費,卻異想天開,要用一支小團隊追尋一個超級笨重的目標:從互聯網抓取圖像,把人類世界的視覺對象,一層層嵌進機器可讀的結構里。 到2009年,數據庫上線時,規模已經大到讓研究者們望而卻步:一千多萬張圖像,覆蓋兩萬多個類別,按 WordNet 的語義層級展開。它不只是個“漂亮的數據集”,而是塊未經馴化的原始大陸,新的星球。 1985年,由心理學家喬治·米勒領導的普林斯頓團隊開始構建 WordNet,試圖將人類語言抽象為機器可讀的邏輯。在普林斯頓深厚的符號邏輯傳統下,最小單位被定義為同義詞集合(Synset),它超越了單詞本身的字面排布,將語義作為組織核心。 這為後來的計算機視覺革命奠定了兩個關鍵的技術基石。 首先,它確立了層次化的分類學體系(Taxonomy)。WordNet 內部最核心的邏輯是其嚴密的上下位關係(Hyponymy/Hypernymy)。它明確規定了概念間的隸屬邏輯。例如,“哈士奇”是“犬科”的下位詞,“犬科”又是“哺乳動物”的下位詞。普林斯頓的學者們耗費數十年,手動梳理出數萬個這類邏輯鏈條。有了它,李飛飛後來就不需要從零開始,構建覆蓋萬物的分類邏輯,而是直接繼承已成型的語義樹。ImageNet 的 12 個層級和 2 萬多個類別,在本質上就是將海量圖像掛載到了 WordNet 的邏輯節點上。 其次,它提供了從“符號”到“感知”的跨越支點。儘管 WordNet 在語義邏輯上近乎完美,但它始終停留在符號層面。它能告訴機器“貓有四條腿”,卻無法給機器提供“貓”的像素表徵。可能正是因為李飛飛身處發源地,她比任何人都更早看清了這一局限:純粹的符號邏輯(Symbolic Logic)無法產生真正的智能,必須用海量的感官數據去填充這些邏輯框架。
真正的轉折發生在2010年。短暫的鐵牛沉大海之後,李飛飛的團隊意識到,單靠數據本身並不能推動整個領域前進。不同團隊各用各法、各選各的數據,各說各語,自說自話,彼此間無法比較,進步就慢,這是巨大的時間和資源浪費。她覺得,人們還是沒有看出,這麼巨大一個圖片數據集的潛在價值。 從這裡,你能看出李飛飛的真正厲害:她不僅敢做普通人覺得不可能的事,建了個世外桃源。而且,她還要逼着人們進駐,在裡面各顯神通,將它打造成真正伊甸園。這是不是受當年中國到處熱火朝天的地產開發啟發,只有她自己知道,或許連自己都不知道,只是冥冥之中接受了指引。 結果,她不僅是一個數據的建設者,更是一個行業生態的設計者。 就此她想到了競標,想到了擂台賽。她看着那些在舊數據集裡斤斤計較的學者,就像看着在狹窄死胡同里死磕殘局的棋手。她不打算入局,要在廣袤原野,再造一個萬馬奔騰的戰場。 或許在某個瞬間,她腦海中閃過那場中日圍棋擂台賽的往事:一紙賽約,舉世矚目,成就了聶衛平等眾多棋聖棋王。她領悟到,要改變一個時代的認知,僅僅靠邏輯是不夠的,還需要一場足以載入史冊的“勝負”對決。她要做的,就是為全世界的算法英雄,組織一場決定命運的擂台賽。 在2010年第一屆挑戰賽舉辦時,李飛飛人微言輕,卻展現出了川妹子特有的那股子靈氣與韌勁。或許是骨子裡帶着點諸葛故里的謀略基因,在資源幾乎為零的絕境下,她竟如老鄉孔明布局、又似劉皇叔起家那般,玩了一手極其漂亮的“借殼上市”。 當時視覺領域已有成名的小型競賽PASCAL VOC。面對這座已經穩固的“城池”,李飛飛無力強攻,也沒有資本另起爐灶,她選擇了“借雞下蛋”的策略。她指揮着稚嫩的ImageNet委身其中,以一個附屬子項目的名義低調潛入。就像當年劉備在落座荊州前,在那座彈丸小城“新野”暫時棲身。雖是寄人籬下,雖是厚着臉皮“沾香邊”,卻在默默觀察着天下大勢,積攢着改天換地的本錢。 李飛飛在這點上極其令人佩服:她不怕位卑,不怕被冷落,更不嫌棄這“新野小城”的寒酸。只要有一線機會,她就要試一下,而且是全力以赴。 當時的她窮得叮噹響,拿不出錢,也找不到願意掏錢的贊助商。早期的獎金微薄到近乎淒涼,很大一部分是由PASCAL VOC背後的組織機構,主要是那幫嚴謹卻死板的歐盟學術網絡分攤的。這筆錢與其說是“獎金”,不如說是一種象徵性的“差旅補助”,數額往往只有幾百到一千美元,有時甚至只是送一張當年頂級學術會議的入場券。 正如劉備在新野等到了諸葛亮,李飛飛也在這個學術界的“新野”里,等到了那個足以火燒博望坡的神跡。2012年,當辛頓帶着那兩塊冒煙的遊戲顯卡殺入賽場時,李飛飛終於告別了“借座新野”的窘迫,親手開啟了屬於深度學習的“三國鼎立”時代。
2010年的硅谷,黃仁勛正陷入一種宏大的孤獨。英偉達雖然靠顯卡賺得盆滿缽滿,但在老黃心裡,始終帶着種“玩物喪志”的原罪。那是給青少年消磨時光的玩具,不是改變世界的利器。 他瘋狂地推行“NVIDIA Academic Programs”,像個兜售靈藥的江湖郎中,敲開一間間頂級實驗室的大門,試圖說服那些穿白大褂的教授:“看在上帝的分上,別再盯着CPU了,我這兒有能算流體力學、能模擬宇宙爆炸的神器。” 但迎接他的,是禮貌而傲慢的拒絕。 那一刻的老黃,像極了七八十年代提着皮箱、滿世界推銷產品的台灣青年。在那份執着里,藏着不怕苦、不怕累、更不怕被人瞧不起的忍耐與臥薪嘗膽。而那些浸淫在手工特徵提取里的教授們,看着這個推銷員,眼神里懸浮的依然是那些複雜的數學算式,仿佛在說:科學是優雅的藝術,不是你手裡那塊發燙的塑料板。 當時的計算機視覺學界,正沉浸在“手工藝術”的巔峰。大牛們聚在一起,比拼的是誰的數學公式更優雅,誰設計的特徵(SIFT或HOG)更像達·芬奇的線條。在他們眼裡,搞AI是視覺的詩學,是邏輯的極致。 如果有人提議用“遊戲顯卡”來跑實驗,導師會扶一扶眼鏡,冷冷地拋出一句:“你是想在實驗室打《魔獸世界》,還是想自降身段去當個修電腦的機房管理員?” 甚至連正在泥潭裡苦苦掙扎的李飛飛,起初也沒把英偉達當成救世主。老黃送來的那幾塊顯卡和硬件代金券,更像是某種“學術公益”。這些顯卡被隨手扔在實驗室的角落,和過期的披薩盒擠在一起。它們在等待一個識貨的人,但那個識貨的人,甚至還沒付得起去參加學術會議的機票錢。 那時候的辛頓團隊,都沒有機會獲得來自英偉達的免費GPU! 【節選自 《AI霸權:紀元啟示錄》(汪翔,即將出版) 第七章第一節】有興趣在大陸和港台出版這本四十萬字,關於AI科技發展史,思想史的,請聯繫我。】 |