我看見的世界：李飛飛自傳 05 第一道光

「那還有什麼好說的呢？」

面對我的含糊其詞，母親的回應總是一針見血，速度之快讓我得花點兒時間才能反應過來。三步絕殺，一劍封喉。我要去讀研究生了。

普林斯頓大學的教授們常說，研究生學習不僅僅是另一個學術里程碑，更是一個轉折點，代表著從學生到成為真正科學家的第一次轉變。研究生學習將把激情轉化為旅程，將興趣轉化為身份，將這段教育經歷錘鍊為事業、聲譽和生活的基礎。這種看法令人鼓舞，讓我所面臨的問題變得明確，但同時也讓它變得更加費解。我知道自己想成為一名科學家，但究竟是什麼樣的科學家？究竟是為了什麼目的？我怎麼才能找到答案呢？

在加州大學伯克利分校的經歷讓我看到了智慧的奧秘，也讓我認識到，深入理解視覺可能是解開智慧之謎的關鍵。然而，在視覺研究領域，我面臨著兩個選擇：神經科學和計算科學。神經科學可以讓我更深入地瞭解大腦的能力，而計算科學則可以利用工程學的原理來建模，甚至複製智慧能力。

我決定兩者兼修。

同時研究神經科學和計算科學的組合並不常見，至少在當時的碩士專案中是這樣。不過，也有少數幾所院校可以滿足我的需求，只是需要花費一些精力去尋找。事實上，我的運氣非常好，有兩所排名世界前列的學校恰好提供了我想要的課程。

第一個選擇是斯坦福大學的雙軌專案，融合了神經科學和電子工程學，由戴維·希格（davidheeger）教授領銜，他是少有的在兩個領域都擁有豐富經驗的學者。課程的每個細節似乎都是為我量身定做的，只是有一點不太合適：這是他在斯坦福大學的最後一年，他離開後，這個專案也就停了。

於是我排除了這個選項，將目光轉向了麻省理工學院的專案。我覺得這個專案更符合我的興趣。專案是托馬索·波焦（tomasopoggio）博士精心打造的，他是計算機視覺這個相對冷門領域的第一代研究者。即使在當時，波焦的工作也已經給我留下了深刻的印象。現在回想起來，我才意識到他的工作是多麼超前，這讓我對他更加敬重了。波焦直接從大腦結構中汲取靈感，建立了一組名為「關聯主義模型」（connectivistmodel）的演算法，用於識別影像內容。這種資訊處理系統內部的結構密集交織，與神經網路並無二致。

我還有一個學校可以考慮：加州理工學院。這所學校有著悠久的歷史，其世界聞名的噴氣推進實驗室與美國國家航空航天局保持著密切的合作，但不可否認的是，加州理工學院在排名上處於劣勢。斯坦福大學和麻省理工學院是全球最負盛名的學術機構，拒絕其中任何一家的錄取通知書似乎都很難理解，更不用說同時拒絕兩家了。但要說起與我的個人偶像之間的聯絡，加州理工學院有一點遠超其實力所及，即費曼、密立根，甚至愛因斯坦本人都曾在這裡講學。至少，我無法抗拒去學校參訪的機會。

從乘飛機抵達帕薩迪納的那一刻起，加州理工學院在氣候方面的優勢就顯而易見了。這是我第一次來到南加州，當地的天氣果然名不虛傳，氣候乾爽，陽光明媚，熱氣襲人，與新澤西的潮溼形成鮮明對比，讓我彷彿瞬間來到了一個避風港。從遮天蓋地盛開的鮮花，到池塘裡慵懶地曬太陽的烏龜，南加州的城市風貌也讓我感覺新奇不已。在學術氛圍方面，麻省理工學院和斯坦福大學都無可挑剔，但加州理工學院卻更似世外桃源。雖然校園很小（甚至跟普林斯頓大學小小的校園相比都相形見絀），但這裡的活力把我征服了。在普林斯頓大學那莊嚴的大教堂式建築中度過了這麼多年後，加州理工學院色彩斑斕、高大明亮的西班牙殖民時期建築讓我感覺彷彿置身於另一個世界。與物理有關的觀光機會隨處可得。我一眼就看到了愛因斯坦騎腳踏車的著名照片拍攝地，不經意間路過了密立根圖書館，還碰巧看到了費曼做過著名演講的禮堂。

在加州理工學院參訪期間，我所看到和感受到的一切都表明，這裡就是我的歸屬。雖然氣候原因聽起來微不足道，但有機會逃離美國東北地區的暴風雪，擺脫多年來的嚴寒之苦，本身對我來說就有很大的誘惑力。而真正把這種「怦然心動」變成「心意已決」的，是我即將追隨的導師們。

第一個將要擔任我的導師的是彼得羅·佩羅納（pietroperona），他全身上下散發著義大利人的魅力，將學科邊界視為無物，在跨學科研究中游刃有餘。他在電氣工程系，但熱愛認知科學，和我一樣希望把兩者結合起來。第一次跟他交流時，我就覺得他興趣廣泛、知識淵博。

「飛飛，我很好奇，你對牆上的那幅畫有什麼看法？」

彼得羅指著一幅裝裱精美的海報問我。海報上，大膽的原色被不規則間距的正交線分割成正方形和長方形。

在普林斯頓大學的時候，我抽時間上過幾門藝術課，於是我高興地指出這是蒙德里安的作品。

「我一直很喜歡他的作品。」彼得羅繼續說道，「幾何的簡單性總是能讓我停下來思考。」

「具體是思考什麼呢？」我問。

「思考是否有一些指導規則，或者至少是解釋規則。」

「規則？你是說……比如演算法？」

他笑了笑，接著說：「你不感到好奇嗎？如果測量蒙德里安每幅畫的比例，結果發現了某種特定的模式，那不是很有意思嗎？」

我也報以微笑。我不知道他在多大程度上是認真的（我幾乎可以肯定他是在和我開玩笑），但我喜歡他會花時間思考這樣的事情。他聰明過人，喜歡冒險，又不時展現出天真的一面。我覺得自己一直在等待遇到這樣的思考者。

第二位未來的導師是計算神經科學家克里斯托夫·科赫（christofkoch）。與彼得羅類似，我第一天就在克里斯托夫身上看到了優秀科學家都具備的特質：擁有無限想象力，同時敢於面對這種想象力帶來的挑戰。他在生物物理學方面已經有很高的造詣，但仍在不斷精進創新，讓我深感欽佩。像彼得羅一樣，他渴望跨越學科界限，將不同學科融合發展，也鼓勵我追尋同樣的道路。我們兩個有著相同的背景，他也是物理學專業，以前也是波焦的學生。但在第一次見面時，我發現他的頭腦中蘊藏著一種深沉的哲學激情，這種激情主導了我們的第一次談話。

「飛飛，你有沒有想過怎麼跟色盲解釋顏色是什麼？怎麼用語言來表達‘看到紅色’這種體驗？」

嗯……我從來沒有想過這個問題。

「我們非常熟悉顏色，但似乎無法用語言來描述顏色，這不是很奇怪嗎？我們只能說到顏色。當我說‘藍色’或‘紅色’時，你就知道我是什麼意思，但這只是因為你已經見過這些顏色。我的話只是喚起了你的回憶，並沒有傳遞新的資訊。」

他的話讓我陷入了沉思。

「所以，想象一下，如果未來的人類完全理解了視覺的工作原理，那麼你覺得他們能掌握用第一原理來描述紅色的能力嗎？」

我想了一會兒。

「難道這不是必然的嗎？我的意思是，如果真的‘完全理解’，那必然會具備這種能力。」

「你的回答完全合理。但前提是可以在還原主義描述中找到對這種經歷的描述和解釋。如果找不到怎麼辦？我們該如何處理這個矛盾？視覺是一種複雜的現象，也許是最複雜的現象之一，但仍然是一個物理過程：物質的表現遵循物理定律。然而，從主觀上講，我們的經驗難道不是非物質的嗎？為什麼看到紅色會讓人覺得是一種主觀感受呢？」

這些都是我以前從來沒有思考過的問題。他的不斷追問讓我對他挑戰我的能力有了全面的認識。

這兩位導師的組合很有意思。他們倆都身材高大，看上去年齡相仿（我猜測都在40歲左右），但體形卻截然不同，彼得羅比較健壯，克里斯托夫則相對清瘦。兩人的口音都很重，一個是義大利口音，另一個是德國口音，但說起話來都幽默自信，也非常隨和，讓咄咄逼人的追問也顯得沒那麼可怕。彼得羅穿衣是學者風格，穿著紐扣襯衫和米色夾克，襯衫下襬總是塞進褲子裡；克里斯托夫則對自己浮誇大膽的著裝風格引以為豪，他喜歡刺眼的熒光襯衫，還喜歡把頭髮染成漫畫書裡的顏色，比如綠色或紫色。

然而，他們有一點相似到離奇的程度，那就是都有一種只能用「陶然自得」來形容的好奇心。這使得他們說的每句話都極具感染力。他們自由奔放，總會毫不遲疑地就複雜的話題提出探索性的問題，彷彿只需聊上幾句，就能解開生命中最深奧的謎題。尤其是克里斯托夫，他經常沉浸在自己的思考中難以自拔，即使我們兩個人在交談，他似乎也更喜歡在自言自語中探索這些問題。但他的專注並不是因為冷漠，而是源於天真，就像一個被白日夢弄得神魂顛倒的孩子。看到他這個樣子，我就會想到常常心不在焉的父親，覺得特別可愛。

這麼多年來，我一直生活在自我懷疑之中，努力掌握英語，為人處世也變得謹小慎微。但奇怪的是，我被他們這種漫不經心、旁若無人的性格吸引了。就像當初與薩貝拉先生相處時一樣，我發現，如果其他人跟我有著對科學的共同熱愛，那麼我就會覺得我們是平等的同伴，哪怕只是友好地聊過幾句。而在跟彼得羅和克里斯托夫這樣的人對話時，我所熟悉的現實世界幾乎變得無關緊要，彷彿我們在心靈相通，不受語言、地位或年齡的束縛。在我心目中，他們是我的新榜樣：同樣都是移民，他們不僅獲得了世俗意義上的成功，而且成了卓越的科學家。

在加州理工學院參訪的那個下午讓我畢生難忘。這些導師都是學術界的巨頭，能跟他們交談幾個小時是我的榮幸，更不用說考慮成為他們的學生了。還沒有登上返程飛機，我就做出了決定。

人類的視覺能力進化範圍廣，演化過程複雜，因此我們幾十年來都無法將這個能力用自動化複製也不足為奇。但如果這種情況改變了呢？如果我們能與機器共享人類對世界的感知，會發生什麼呢？機器擁有自動化的速度，可以持續產出高精度影像，不知疲倦為何物。想象一下，無人機甚至衛星在森林、冰川和海岸線上空飛行，對全球的環境健康狀況提供專業評估。想象一下，智慧的非人類助手像人類助手一樣幫助視力障礙人群應對複雜的環境。想象一下，機器人急救員將急救醫護人員或消防員的判斷與機器的耐力和恢復能力相結合，使搜尋和救援變得更加安全。想象一下，自動醫療診斷能通過移動裝置為世界各地的病人提供專家意見。

數字世界的機會也不勝列舉。視覺媒體發展百年以來，攝影、電影、新聞和電視等影像消費已經成為現代生活不可或缺的一部分。自計算機誕生之日起，文本和數字資料就可以自由搜尋，但與之不同的是，僅僅是對影像進行粗略的搜尋，都依然需要依靠人工來完成，耗時耗力，成本高昂。影像資料庫規模極其龐大，人工管理分類早已無望，視覺智慧機器能提供幫助嗎？

從人工智慧領域發展早期，這樣的可能性就一直誘惑著研究人員。然而，他們很快就意識到，視覺理解的挑戰極其複雜，這一點也被此後的每一代人反覆證實。首先就是資料本身。數字影像是以畫素的形式儲存的，也就是說，單個顏色點用數字編碼表示，因此在機器看來，畫素只不過是一長串整數。如果演算法想要像人類一樣，根據有意義的概念（如人物、地點和事物）來理解影像，就必須對這個列表進行篩選，並找出以某種方式對應的數字模式。

遺憾的是，定義這種數字模式的難度很大，即使是定義直線或幾何形狀這樣的簡單概念也很難。人臉識別更是難上加難，因為人臉是有機體，變數非常多：膚色、比例、拍攝角度、光線條件、影像背景等，組合種類繁多，極其複雜。

從資料開始，謎題越來越難。例如，人類在看到事物之後，會形成更深層次的理解，那麼被動觀察行為和理解行為之間的界限究竟在哪裡？我們對影像的感知包括由邊緣和紋理形成的一團團的色塊，我們會下意識地解讀這些色塊，這是一種純粹的感知體驗。而在我們有意識地處理所看到的東西之前，有多少次是下意識地看到了影像？研究人員很快就發現兩者不可分割：看到即理解，因此科學挑戰既存在於感官層面，又存在於智力層面。所以，視覺不僅僅是我們對智力的應用，實際上，它就是智力的同義詞。

這就是視覺的魔力。視覺是一種非常精細的技能。雖然我們看到的世界只是光線恰好落在我們眼睛表面的對映，但我們從光線中獲得的資訊卻能延伸到我們的全部經驗。從感官輸入到可靠、可操作的知識，這是一種近乎奇蹟的轉變，是人類大腦最了不起的一大能力。僅僅是轉換任務的計算成本，就遠遠超過了倉庫大小的超級計算機的計算能力，而對人類來說，所有這些都是由一個直徑約12.7釐米的潮溼有機塊體完成的。人腦對概念的認知深度讓學術界的傑出人士也常懷謙卑之情。

要解開視覺之謎，並不僅僅是理解「人類如何看見事物」這麼簡單。視覺問題並不是簡單的關於顏色或形狀的問題，也不僅僅是在更大級別上進行數字運算的問題。視覺研究是對人類認知中一個核心現象的探索。視覺在很大程度上是人類身份和獨特性的基礎，無論是在生物學上、人際關係方面，還是在文化層面。研究視覺是通往我們體驗最基礎層面的旅程。很多時候，「所見即所知」，因此，瞭解我們如何看見，就是了解我們自己。

在研究生生涯伊始，我買了一本巨大的教科書。這本書在我入學前一年剛剛出版，裝幀新穎，內容也極為領先。書很重，封面厚實，邊角尖銳，第一次開啟時，書頁之間分離發出的聲音清晰可聞。這本書將我的學術旅程的所有脈絡都匯聚在一起，編織成一件藝術品，每次看到它的封面都會讓我倍感振奮。

書名為visionscience（《視覺科學》），封面上的這兩個詞彷彿是專門為我選定的，描繪的是自加州大學伯克利分校的實驗以來，我一直在努力追尋的道路。稍下2.5釐米處是斜體的副標題，更是激起了我的好奇心：photonstophenomenology（從光子到現象學）。在標題的正上方，凡·高《星月夜》的全綵畫作佔據了三分之二的封面。這本書內容翔實，闡述全面，註定要成為未來幾十年的標準。我渴望學習書中涵蓋的一切內容。

在黑暗實驗室的時刻改變了我的一生，當時那些噼裡啪啦的聲音讓我第一次瞥見了其他生物大腦的內部運作機制。如今已經過去了兩年。兩年的追求才剛剛開始。我對工程學這門充滿挑戰性的藝術很感興趣，但我不想成為單純的工程師。儘管我被神經科學的奧秘所吸引，但我也不想成為純粹的神經科學家。我想不受約束，對兩者兼而用之。

感謝命運之神的偶然眷顧，我遇到了再好不過的時機。當時的我還不知道，視覺研究是人工智慧本身的產物。曾幾何時，在人工智慧大旗的感召下，各個領域的研究人員團結一致，共同努力推動這個領域不斷發展，然而，隨著旗幟的撕裂，不同的研究領域也四分五裂，各自為營，進入了持續十年的低迷期。神經網路和專家系統等設想一度令人興奮，但最終的研發並未成功，初創企業關門大吉，學術界的興趣也不斷消退，又造成了一輪疏離。人工智慧的發展再次遭遇寒冬，而我正身處其中。但冬天正在迅速離去，冰雪即將消融。