thenorthstar
2004年,我們建立的caltech101完工,成為有史以來為機器學習配置的最大規模的影像集合,裡面有超過9000個影像,分佈在100個類別中,另外我還獨自完成了一個新類別的影像整理。如果彼得羅想要100個類別,我就給他101個。
帕薩迪納黎明的微光從地平線上緩緩升起,色調溫暖而多變。在這個城市生活久了,我逐漸發現,這是獨屬於加州的顏色。朝霞召喚人們走到戶外,讓人不禁想要暫時拋開白天要盡的種種義務,投身其中,盡情享受。但天空再藍再美,也沒有科學發現的希望誘人。今天是開啟新實驗的第一天,實驗室就在地下等著我,我已經為此準備了好幾個月。
我們的實驗在科赫實驗室的心理物理學實驗區進行。這個地下室幽閉陰暗,隱藏在加州理工學院陽光下的草坪和腳踏車道之下。這裡沒有自然光,大多時候也沒有人工光線,空間接近完全封閉。我們在實驗區裡搭建了三個完全相同的小隔間,每個隔間只能容納一個實驗物件。隔間裝有遮光窗簾,可以完全隔絕實驗物件的視覺感知。
實驗物件進入小隔間以後,會一隻手握持滑鼠,另一隻手放在鍵盤上,凝視黑暗。在片刻沉寂之後,會有一個顯示器亮起來,顯示一系列彼此毫無關聯、頗有達達主義之風的影像:隨意排列的英文字母、無序擺放的場景照片、突然閃過的隨機元素。每個影像出現的時間都精確到毫秒,實驗物件通過點選滑鼠和按鍵做出反應,我們則對其反應進行精確測量。然後,在幾秒鐘之內,隔間重新陷入黑暗。片刻的寂靜過後,此前播放的影像組合再次出現,實驗就此不斷迴圈往復。
實驗雖然乍一看雜亂無章,但沒有一個細節是隨意安排的。所有的周折都是為了一個目的,那就是解讀大腦活動,或者至少推斷出大腦活動內容的部分片段。實驗物件手指抽動、呼吸變淺、瞳孔放大,這短短幾秒鐘的資訊被轉化成一系列資料,這些資料可能需要幾天、幾周甚至幾個月才能完全理清。感官的奧秘深藏不露,要把它們誘騙到實驗裝備上,揭開它們的面紗,哪怕只是短暫的一瞬,也是奇事一樁。
在長達5億年的時間裡,進化不斷對光敏蛋白質施壓。在其不懈的推動下,光敏蛋白質跨越漫長的歲月,發展成為一個精密到讓人幾乎無法參透的結構。進化的辛勤勞動打造了整個視覺皮質,從眼睛的玻璃表面一直延伸到大腦的最深處。所以在加州理工學院,我們要拜進化成果為師,嘗試揭開視覺之謎。在我的導師看來,要實現機器智慧,關鍵的第一步是更好地瞭解人類。
除了有機會沉浸在自己心儀的視覺研究領域,我並不知道自己想從研究生階段獲得什麼,但我希望在此期間找到可以全力追求的目標。我會像自己的榜樣那樣全情投入,就像埃裡克·維斯喬斯把對果蠅異常現象的痴迷轉化成了諾貝爾獎,或者尼爾·德格拉西·泰森把宇宙變成了數字詩歌。我想要一顆屬於自己的北極星。但在找到北極星之前,我只想圍繞一個問題展開思考,那就是不可言喻的視覺體驗究竟是如何實現的,用《視覺科學》那本教科書生動的副標題來說就是,光子是如何成為現象學的。這本教科書讓我邁出了理解視覺體驗的第一步。書的前言由普林斯頓大學心理學家安妮·特雷斯曼(annetreisman)撰寫。她是實驗界的奇才,也是20世紀認知科學的巨人。早在數字技術出現的幾十年前,她就把特別簡單的工具和原始創造力相結合,來探究人類的感知(如果當時就有數字技術,那麼她的研究會大大加速)。
特雷斯曼提出的「注意的特徵整合理論」幾乎成為理解視覺意識本質的通用理論基礎。在實驗中,她會以極快速度向實驗物件展示一些抽象物品,比如在一堆綠色和紅色方塊中夾雜一個紅色圓圈,由此確定他們在不同深度層次上理解影像所需的時間。她發現,人們幾乎可以立即意識到紅色的存在(也就是知道影像的某個地方包含紅色),但找到紅色圓圈這樣的元素則需要花費更長時間,因為在紅色圓圈中,一個物體同時包含了「顏色」和「形狀」兩種不同的特徵。換言之,把對「紅色」的感知和對「圓形」的感知整合在一起,不僅需要更長時間,而且似乎屬於一個完全獨立的視覺處理階段,這個階段的資訊處理更為密集。
特雷斯曼的研究範圍很廣,解釋翔實,但她的核心理論是統一的,即人類視覺從識別微小細節開始,然後建立它們之間的關係,直到揭示出一幅完整的畫面。這個論點非常符合直覺,也為理解視覺的工作原理提供了衡量標準:人類可以迅速識別特徵較少的簡單物體(如灰色人行道上的橙色小球),而識別更復雜的場景(如蜿蜒的林間小道或朋友的面部細節)則需要更多時間。
在計算機視覺研究中,我反覆看到以下模式:研究人員編寫演算法並不斷改進,以識別照片和其他影像中的基礎性細節(如清晰的邊緣、光線和顏色的變化、紋理或圖案的碎片等),然後構建更高層次的演算法,來識別這些細節之間的聯絡,並將它們與更有意義的事物(如人和物體)聯絡起來。雖然我對視覺原理的瞭解有限,但我覺得這種方法很有道理。然而,情況很快就變得非常複雜。
「飛飛,我給你準備了一些閱讀材料。」彼得羅一邊說一邊把一篇文章放在我面前的桌子上。
「這個嗎?」
我拿起翻看,發現這篇文章的長度還不及大多數發表論文的四分之一。彼得羅露出了會心的微笑。
「相信我。這是你想讀的內容。」他不是在開玩笑。
這是神經科學家西蒙·索普(simonthorpe)於1996年提交給《自然》雜誌的一篇通訊文章,題為《人類視覺系統的處理速度》。雖然標題平淡無奇,篇幅也只有三頁,但在當時卻產生了極大的影響,因為它對整個領域公認的正統觀念提出了疑問。這個例子彰顯了科學界最偉大的傳統:雖然既定的觀念符合直覺,廣為人知,卻能被更加錯綜複雜的現實打破。
在實驗中,索普向實驗物件展示計算機顯示器上的影像,使用腦電圖(eeg)來測量他們大腦表面的電訊號。當一張照片在螢幕上僅閃爍27毫秒時(即蜜蜂扇動幾下翅膀所需的時間),實驗物件就能極其準確地識別出照片內容。通過進一步研究,索普精確地指出,大腦中的識別時刻是在影像出現後僅僅150毫秒(大概相當於眨眼的一瞬間)。這是迄今為止對人類視覺處理速度最精確的調查,其結果顯示,識別所需時長遠遠小於特雷斯曼理論的預測。
在特雷斯曼的實驗中,實驗物件在極短的時間內識別基本的顏色和形狀。而索普的實驗物件則能夠在同樣短的時間內處理整個影像,辨別其中的細節、視角、微妙的光照和意義。每個閱讀這篇文章的人都會心生疑問:這是怎麼做到的?我明白了為什麼彼得羅這麼想讓我讀這篇文章,也明白了為什麼在這篇文章發表三年多後,他和克里斯托夫還經常就此展開討論和爭辯。我立刻和他們一樣沉迷其中。
於我而言,這篇文章頗為超現實,因為它才發表沒多久,就在我來到加州理工學院的前幾年。即使在今天,人們也很容易忘記對人類視覺的現代研究歷程其實是多麼短暫,最早的出版物也只能追溯到幾十年前。物理學的傳奇歷史綿延了數個世紀,從伽利略到牛頓再到玻爾,無不充滿傳奇色彩。相比之下,不管是過去還是現在,視覺在很大程度上仍是一片未知領域。計算機視覺研究則更為年輕,這感覺就像我手裡拿著一張還在繪製過程中的地圖,而我的研究生早期生活也因此充滿了激情和動力。每週從帕薩迪納給薩貝拉先生打電話時,我總是滔滔不絕地和他聊個不停。
「我從來沒見過這樣的情況。」我說,「這個領域太複雜、太激動人心了,而且幾乎是全新的!就在我們聊天的時候,計算機視覺領域很多最牛的學者還在積極地做著研究呢!」
我與彼得羅和克里斯托夫相處的時間越長,就越欣賞他們的冒險精神,這也是他們作為學者最明顯的特徵。雖然他們的背景分別是物理學和工程學,但兩人都對心理學、認知科學和神經科學等領域充滿了熱愛。他們和系裡的其他人一樣經常閱讀電腦科學期刊,但他們還會專注閱讀《心理學評論》《美國國家科學院院刊》和享有盛譽的《自然》等刊物。
因為受到熱愛的驅使,所以他們都抱持著鮮明的觀點,渴望開拓知識的前沿。這意味著要直面索普和特雷斯曼研究成果之間的差異。有強力證據表明,視覺在某些方面(也就是識別現實世界風景的能力)幾乎是毫不費力的。但這種毫不費力背後的原因是什麼呢?這種原因可以被量化嗎?這對我們理解整個大腦有什麼幫助嗎?這些都是值得探索的問題,而對我的導師們來說,還有一點好處:相關研究工作會非常繁重,足以讓他們門下這位執著的新研究生忙上一陣子了。
如何閱讀一個人的大腦?
在實驗室裡,經常需要準確捕捉實驗物件的感知、期望甚至決策。要設計相應的實驗方法,就需要綜合運用工程學、心理學、人體工程學,甚至是類似於變戲法的手段。具有諷刺意味的是,雖然我們的實驗看起來與在許多其他實驗室看到的沒有什麼不同——都是實驗物件身上掛滿了電極,助手們處理大量資料,等等——但實驗的設計卻堪稱一種藝術。
與一般實驗不同,我們的目標非常籠統。我們會向實驗物件展示照片,每張照片的展示時間只有幾分之一秒。我們要看他們能否在不把注意力集中在照片上的情況下,準確識別上面的內容。索普已經確定了完成識別任務的速度,但他沒有探究有意識的注意力所起的作用。在觀看影像的時候,我們需要有意識地集中注意力嗎?還是說我們的識別能力會在無意識的情況下持續運轉,無論我們是否刻意關注,都能感知周圍的世界?我們懷疑是後者,但我們需要加以證明。
克里斯托夫實驗室的訪問博士後阿希姆·布勞恩(achimbraun)為我們提供了實驗的靈感。布勞恩當時正在研究一個類似的假設,他假設我們的大腦會在沒有意識的情況下處理大量的視覺細節。他提出了一種「雙重測試法」。在這種方法中,他讓實驗物件的注意力集中在一個需要刻意集中注意力的中心任務上,與此同時,展示一個只需要被動觀察的外圍任務。中心任務需要高度集中注意力,這樣能確保外圍任務不會被有意識地處理。
這種方法的巧妙之處在於它可以揭示實驗物件感官的焦點。因為中心任務需要實驗物件集中注意力產生一個客觀反應,因此通過幾輪反覆實驗,就可以非常準確地確定實驗物件的注意力是否完全集中在該任務上。外圍任務雖然相對簡單,但也有一個客觀正確的反應,由此一來,便可以可靠地測量出實驗物件的次要意識。因為這兩項任務呈現的時間都只有大約200毫秒(只比眨眼的時間稍長),所以可以排除實驗物件有意識地依次執行這兩項任務的可能性。
我們的實驗對實驗物件的注意力進行了精準的控制,一旦我們確定實驗物件的注意力已經完全集中,就會向他們快速展示一張隨機選擇的戶外風景照片,然後提出一個簡單的問題:這張照片裡有動物嗎?他們的答案將充分說明注意力與視知覺之間的關係。
從實驗物件的角度來看,這個實驗的節奏快得讓人喘不過氣,因為在實驗過程中,各種影像和圖案會閃電般地轉瞬即逝,需要他們幾乎立刻做出反應。但是,實驗的實施過程就沒那麼快了。一天又一天過去,我們感覺自己像在照看孩子,而不是在做實驗。我們以賺取週末零花錢為誘餌,吸引大學生來參加實驗,然後就在隔間外等著他們雙眼昏花地走出來。因為願意參加實驗的大學生不夠多,所以我們只能趁他們有空的時候做實驗。有好幾次,我一天的主要任務就是早上6點在實驗室門口迎接陌生人。但就算這樣,我也樂在其中。這樣的工作雖然煩瑣乏味,但依然是科學的一部分。
我們的實驗固然重要,但彼得羅和克里斯托夫也明確表示,優秀的科學家要廣泛閱讀文獻,緊跟領域的最新發展。我讀得越多,就越意識到,索普並不是第一個挑戰特雷斯曼的人。我閱讀了幾十年來的研究成果文章,發現越來越多的線索表明,除了特雷斯曼的觀點,還存在很多不同的理論。
與特雷斯曼的觀點差異最大的研究成果也許來自視覺研究員歐文·比德曼(irvingbiederman)。他跟同事設計了一項實驗,讓實驗物件快速瀏覽一些照片(而不是抽象的形狀和顏色),然後讓他們辨認看到了什麼。隨著實驗的進展,刺激物的複雜程度大大增加,實驗物件看圖片的時間也越來越短,但實驗物件的回答卻始終準確無誤。比起特雷斯曼的研究物件在一堆五顏六色的字母b中辨認出一個單獨的字母a所花的時間,比德曼的實驗物件能在更短的時間內從照片中吸收足夠的細節資訊,分辨出這是一張購物中心停車場的照片,還是一張家庭廚房的照片。
另一個不同的觀點來自心理學家莫莉·波特(mollypotter)。在使用一臺早期計算機顯示器向實驗物件展示文欄位落時,她讓大字型的文字一個一個地在螢幕中央閃現。即使以每秒12個字的速度展示(是普通大學生正常閱讀速度的兩倍),實驗物件的辨識表現依然優秀。儘管特雷斯曼的演示證明了視知覺是從微小細節開始逐步建立起來的,但閱讀似乎明顯是個例外。
這項研究所用的工具非常原始,因此研究更顯得了不起。幾十年來,由於無法直接瞭解研究物件的認知,特雷斯曼、比德曼和波特這群善於思考的人巧妙地在嚴格控制的環境中,利用行為觀察來尋找令人驚歎的線索。但這種方法也有侷限性——歸根結底,我們能從外部推斷出的關於大腦的資訊也只有這麼多了。要從內部理解這些現象,還需要新一代技術。
這樣的技術最終出現了——腦電圖和功能性磁共振成像(fmri)等神經科學工具為研究人員提供了前所未有的臨床精確度。索普的論文是最受關注的研究成果之一,但相關成果遠不止於此。麻省理工學院認知神經科學家南希·坎維舍(nancykanwisher)及其學生完成的研究也同樣重要。索普和比德曼等研究人員發現,人類具備快速準確的感知能力,而坎維舍團隊通過功能性磁共振成像分析,確定了與之相關的大腦區域。腦電圖測量的是整個大腦的電脈衝,它以極快的速度在大腦表面擴散,而功能性磁共振成像則通過檢測特定區域的神經元活動,來測量血氧水平的變化。
研究早期的突破包括髮現了「梭狀回面孔區」(fusiformfacearea,ffa),這是顳葉的一個皮質區域,大小不超過一立方厘米,似乎是為識別人臉而量身定做的。接下來是附近的「海馬旁回位置區」(parahippocampalplacearea,ppa),在識別熟悉的地點(比如自家廚房或常走的道路)方面發揮著類似的作用。另一個發現是「紋外軀體區」(extrastriatebodyarea,eba),可以對周圍人的手臂和腿等部位的擺動情況做出反應,幫助我們感知他們的身體方向。
這些被稱為視覺神經關聯的結構有一些特別之處:它們似乎都是為特定目的專門打造的。每個結構都能且只能識別特定類別的事物,如面孔、熟悉的地點、身體姿勢等。這就解釋了為什麼我們在完成特定的識別任務時,能夠達到驚人的感知速度。我們不需要從頭開始,逐個細節地進行解碼;我們神經系統的一個專用功能會立即啟動,幾乎在瞬間就能完成識別任務。從我們的感受來看,這種識別是毫不費力的。
在生物學上,個體在某些過程中所付出的努力程度可以說明很多問題。進化極致追求節約體力和腦力,導致生物體只對極端的環境壓力做出反應,要麼適應,要麼滅絕。如果要使一種能力精進到如此程度,使如此複雜的事情變得自動化,那麼這種能力必須具有根本性的、獨一無二的重要性。
因此,視覺不僅僅是我們所看到的細節問題。雖然像特雷斯曼這樣的研究人員提出,影像可以被分解、分層檢視,特別是在嚴格控制的實驗室條件下,但我們在混亂世界中生存所依賴的視覺需要處理的物件是事物、人物和地方。事實上,從最早的處理階段開始,我們在感知周圍環境時,並不是將其看作顏色和輪廓的組合,而是以類別的方式來理解。
這些發現本身固然令人興奮,但它們之間的聯絡就像是尚未被發現的大陸海岸線,讓人感覺別具深意。每一個新的想法都指向一些重大的(或許是歷史性的)東西,正等待著被發現。這讓我更加迫不及待地想要看到我們的實驗結果。我們是不是就快揭曉謎底了?還是會迎來更復雜的問題?
大多數日子裡,彼得羅都會在上午到校園的紅門咖啡館,享用一杯卡布奇諾,而我也開始跟著他一起去了。我個人的經濟狀況並不支援我養成喝咖啡的奢侈習慣,但我喜歡觀察他喝咖啡的過程。他會把自己的要求告訴咖啡師,拿到定製的咖啡後,再小心翼翼地加一點點焦糖,輕輕攪拌。對多年來不停東奔西跑的我來說,他的咖啡時間恰好提醒了我,生活中的簡單時刻值得細細品味。
然而今天,我來到這裡不是為了品味生活,而是另具戰略目的:實驗結果已經出爐,我想馬上跟他分享。雖然彼得羅對自己的咖啡儀式全神貫注,但在咖啡時間跟他交流比吃午飯時更容易——吃飯的時候,他喜歡把我們的餐盤擺成五顏六色的畫面,說像流行藝術家大衛·霍克尼(davidhockney)的作品。他所謂的「霍克尼拼貼畫」主要是他在自娛自樂,一開始很有趣,但等他擺好我早已飢腸轆轆,不禁回想起他對藝術史的熱愛曾經看起來多麼高深。
他剛喝了一口卡布奇諾,我就翻開抄錄了最新結果的筆記本,開始大聲朗讀起來。經過漫長的努力,我很自豪終於有了一些切實的成果可以跟他分享。就在我把資料逐個念出時,彼得羅變得和我一樣興奮。
「飛飛,這些資料……我是說,它們——」
「我知道!簡直不可思議!」
在一次又一次的測試中,資料清晰地揭示出令人震驚的事實:我們的實驗物件在完全專注於其他事情的情況下,也依然能夠識別出真實世界場景中的照片。我們知道反應時間會很短,但實驗物件的反應速度之快、一致性之強和準確性之高,都完全出乎我們的意料。大腦能夠以驚人的辨別力和迅捷的速度識別出無數視覺概念,這是大腦的獨特特點,不僅極其強大,而且似乎完全是自動的。
我很榮幸能為這項看起來正在對該領域產生影響的研究做出貢獻,但最大的收穫在於哲學層面。我們的研究成果躋身過去幾十年的成果行列,表明人類視知覺的核心是一個簡單的概念:我們的視覺基礎在於識別定義明確的類別,也就是對事物的識別。彼得羅神情微妙,但他的喜悅之情明白無誤地寫在臉上,說明他也認同我的觀點。我越發相信,我們即將揭開一切的奧秘。
當我在加州理工學院的第二學年即將結束時,我已經閱讀了大量文獻,參加了許多研討會和專題會。隨著我們的實驗結果的發表,我也看到了足夠的第一手資料,因而認識到了一個重要的事實:視知覺依賴於分類。我們的大腦會自然而然地將我們所看到的細節歸類為更廣泛的概念,如物體、人物、地點和事件等。例如,在現實生活中,我們看到的不僅僅是簡單的綠色和藍色的圖案,而是會看到在天空映襯下的一棵樹。視覺在更高、更有意義的層面上發揮作用,用知識武裝我們的頭腦——我們可以想象樹葉隨微風搖曳的樣子或夾在指間的感覺,我們也可以立刻估計出一根樹枝的質地和重量,這兩者都與高懸在數英里高空的不可觸控的大氣層和彩色光線截然不同。
分類的能力賦予了我們難以估量的力量。視覺沒有把我們埋沒在光線、顏色和形狀的無數細節中,而是把我們的世界變成了可以用語言描述的離散概念。有用的觀念像地圖一樣排列在我們周圍,把複雜的現實簡化成我們可以一望便知、在瞬間做出反應的世界。我們的遠古祖先就是這樣在純粹的混沌環境中生存下來的,世世代代的藝術家們就是這樣從日常生活中提煉出美感和精華的,即使在今天,我們也是這樣在這個日益複雜的世界中找到自己的方向的。
我讀到的很多內容似乎都在強化這一觀點。雖然特雷斯曼揭示了我們識別複雜物體的一種方式,但比德曼、波特和索普的研究成果提供了一種截然不同的可能性,大大增加了視覺研究的複雜性。他們認為,在某些情況下,大腦會完全繞過這種密集的自下而上的視覺資訊處理方式。我們自己實驗室的研究探索了在沒有刻意集中注意力的情況下,視覺識別能夠達到的程度。坎維舍的觀點尤其具有啟發性,他認為這種不可思議的能力是通過特定用途的神經元關聯來實現的,這些神經元關聯可以對映到現實世界中的特定事物。這些證據有力地證明了大腦在生理上傾向於快速、穩健地檢測已知的視覺概念。
我們的視覺系統就像是某個神秘巨人以極大的耐心精雕細琢出的發條裝置,而我們的研究工作像是其逆向工程。雖然發條裝置的小齒輪在我們面前嘀嗒作響,但其神秘面紗仍然未被揭開,距離完全理解視覺原理還有很長一段路要走,但我們已經窺得一些非凡的東西。生物進化是宇宙中唯一能夠從零開始創造真正智慧的力量,我覺得我們正在復原其線路圖,或者至少是其中的一些片段。
這也改變了我對自己所從事的計算機視覺領域的看法。雖然計算機視覺領域的靈感創意層出不窮,但它們都分散在各種各樣的研究專案中,整個領域缺乏指向同一目標的共同協作,類似於那股千年來耐心地塑造了我們自己思維發展的專注力量。我不禁思考,如果這種情況改變了,如果研究人員能夠聯合起來,共同理解並重新創造了人類認知的核心理念,世界將會變成什麼樣子?
我很難想象各方協同可能會帶來什麼發現。人工智慧的未來具有無限的想象空間,但我開始認識到,這並非首要問題。我越來越確信,解開人工智慧之謎的理想第一步,就是迎接一個特殊的挑戰:通過理解各種物體來理解視覺世界。畢竟,人類就是這樣看到世界的。我現在相信,這同樣適用於我們的機器。
我想到了我的榜樣們,從物理學的傳奇人物到我的教授。多年來,我一直崇敬激勵他們成為科學家的思想力量,也敬仰他們在各自領域產生的激勵效應。現在,我接受研究生教育不過短短幾年時間,但我相信我在自己的視野看到了一絲微光,雖然遙遠而朦朧,但足以照亮我前進的道路。無論採取何種方法,我們將要讓機器熟悉視覺世界。我本身就比較執著,但這次的痴迷程度是前所未有的。
我找到了屬於自己的北極星。
螢幕上出現了一張噴氣式飛機的影像,這次演算法的任務是在照片上找到飛機。這是連蹣跚學步的兒童都能應對的挑戰,但在2003年,機器只有在吸收了大量示例材料後才能應對。即便如此,它們成功的機率也很低。那天下午,我和彼得羅測試了一個想法,希望能夠大幅提高機器判斷的準確率。我緊緊盯著螢幕,迫不及待地想知道演算法會帶來什麼結果。
螢幕上開始出現粉色的圓點,這些圓點是視覺輔助工具,旨在突出照片中能夠吸引演算法注意的細節。第一個圓點出現在了停機坪旁的一片草地上,我微微皺了皺眉。演算法找錯了地方。但趨勢很快逆轉,接下來的兩個圓點出現在了噴氣式飛機的機翼上,接著又有一個圓點出現在飛機尾部。再接著,三個圓點出現在駕駛艙附近。最後一個圓點出現了——起落架。這也可以算,我想。嚴格來說,起落架也是飛機的一部分!
我興奮地呼了一口氣。到目前為止,一切都很順利。
接下來是真正困難的部分。每個突出顯示的特徵只佔據了幾個畫素,因此演算法會將特徵進行分組,每個組群都代表了所要識別的物件的較大部件。換句話說,演算法通過這種方式大致標示了自己所識別的內容。飛機的每個部分周圍繪製著彩色圓圈——藍色和青色代表機身的不同部位,紅色代表垂直穩定器,綠色代表兩者的交匯處。果不其然,演算法幾乎精確地將它們放在了各自所屬的位置。
飛機被成功識別出來了。
這是一個激動人心的時刻,但並非因為演算法的成功識別,而是因為它的運作方式。以往的演算法會首先學習數百張飛機的照片,涵蓋儘可能多的顏色、風格、角度和光照條件,但在這次研究中,我們只給演算法展示了一張飛機的圖片。與此同時,我們還向它展示了數百張完全不相關的圖片,包括有斑點的叢林貓、摩托車、人臉(我們用彼得羅新買的高階數碼相機拍攝了實驗室夥伴的笑臉),還有一些從谷歌圖片上隨機下載的圖片。我們的假設是,先讓演算法充分接觸視覺世界裡豐富繁雜的各類事物,它就更好地具備了學習特定事物的能力。因此,雖然演算法被訓練識別過各種各樣的事物,但它剛剛識別出的那架飛機是它見到過的第二架飛機——自它被設計出來後見到的第二架。
我們的創造只是概念驗證,仍然存在一些錯誤。但我們的目標是證明演算法和人類一樣,能夠通過看到更多的現實世界而廣泛受益。現在,北極星已成為我視野裡的一個座標點,我們已經朝著這個方向邁出了真正的一步。
我們將這種技術稱為「單樣本學習」(one-shotlearning)。這種技術與當時主流的影像識別方法背道而馳,但我們是從一個眾所周知的能力中獲得了啟發。作為人類,我們天生就有一種神奇的本領,那就是可以僅憑對陌生事物的一瞥,再次遇到時就能認出來,不管是一樣新的樂器、一種我們從未見過的動物,還是一位新當選的政治家。我們可以對這種能力做出多種解釋,但其中最簡單、最有力的解釋是,即使面對全新的事物,無論多麼新奇,我們也會藉助一生的經驗來加以理解。我們所看到的幾乎一切都深深地融入了過往的經驗——輪廓、光影、紋理和圖案等熟悉的細節,以至我們很難想象能真正孤立地看到任何東西。
我們的技術將這一概念引入了機器,而且看起來效果不錯。如果說實驗結果是一個驚喜,那麼我們的論文所受到的歡迎程度則是超乎想象的。這是一次突破性的成功,我們的論文不僅被在法國尼斯舉辦的國際計算機視覺會議(internationalconferenceoncomputervision,iccv)所接受,而且為我們贏得了為數不多的口頭報告的機會。雖然這篇論文是與彼得羅和另一位名叫羅布·弗格斯(robfergus)的研究員共同撰寫的,但我是主要作者。這意味著此次旅程的榮譽和責任都屬於我。
在國際計算機視覺會議上發言是一個難得的機會,尤其是對一個研究生來說。然而,我可以說完全沒有在如此重要的聽眾面前發言的經驗,因此感到壓力重重。更糟糕的是,彼得羅不能跟我一同前往。他和妻子的第一個孩子即將出生,預產期近在眼前。這是我第一次參加學術會議,也是我第一次登臺演講,而我要獨自前往了。
在飛往法國尼斯的航班上,我沒有時間緊張,因為還有要務在身。在加州理工學院的工作讓我一直忙得不可開交,而在約9100米的高空安靜飛行的13個小時,是我唯一可以用來準備演講稿的時間。在旅途的大部分時間裡,我都低著頭,以最快的速度撰寫演講提綱、製作幻燈片。
然而,一到會場,我就強烈地感受到沒有彼得羅在身邊,我心裡是多麼沒底。按照慣例,學生第一次參加會議時,無論是否做報告,導師都要陪同出席,以示支援,同時也可以幫助學生建立人脈。我開始逐漸意識到,我置身於一個擠滿數百名陌生人的活動大廳裡,不得不獨自應對一切。緊張感開始湧上心頭。
「飛飛?」一個聲音在我身後響起。我轉過身,發現一張陌生的面孔正俯視著我。
「是的,你是?」我小心翼翼地回答。
「終於見到你了,真是太好了!我是吉滕德拉。」
「吉滕……哦!吉滕德拉·馬利克嗎?你……」
「是啊,你知道我是彼得羅以前的導師吧?」他笑著說,「他讓我來陪你。你不會以為我們會讓你一個人來這裡吧?」
雖然我聽過吉滕德拉的名字,當然也知道他響噹噹的名聲,但這是我們第一次見面。我傾向於從家庭的角度來看待學術關係,所以我把導師的導師視作我的「師爺」。他的陪伴讓我倍感平靜和鼓舞,他完全無愧於這個稱謂。演講結束後,我被一群渴望瞭解更多細節的研究人員團團包圍,而吉滕德拉成了我的救星。有他陪著,就算他什麼都不做,我也覺得這不堪重負的一天可以熬過去了。我們之間也就此開啟了一段持久的友誼。
在我的演講結束後,大家展開了熱烈的討論。我突然意識到一件微妙的事情——我被問到的每個問題都與演算法本身有關:你是如何建立貝葉斯方程來估計後驗機率的?你是如何估計影像的先驗分佈的?你提到使用最近提出的變分推理演算法來最佳化模型引數,能詳細說說嗎?在未來的改進中,你打算如何擴充套件演算法?演算法在不同情況下可能會有什麼表現?
我們選擇的機器學習演算法的數學核心是「貝葉斯網路」(bayesiannetwork),這是一種機率技術。接二連三的問題都是有關這種技術的,但沒有一個人問及我們訓練演算法時所用的資料。資料被公然視為一種惰性商品,只在演算法需要時才重要,雖然這種觀點並不稀奇,但我開始意識到,有一些重要的東西一直都被低估了。
我們演算法的決定性特徵是能夠從只看過一次的影像中學習新的事物類別,而這一特徵對資料的依賴極大。究其根本,是因為我們的演算法已經見識到林林總總的各種事物,獲得了感知體驗,才可以在面對新事物時展現出卓越的識別能力。
事實上,我越想越覺得奇怪。資料具有微妙而神奇的力量,為什麼這個話題從未得到任何關注呢?我們的實驗材料極少,只不過是從幾個隨意選擇的類別中拿出幾百張圖片,卻獲得了意料之外的結果。這不禁讓人思考:如果少量資料就可以實現如此強大的能力,那麼更多的資料又將帶來什麼呢?這個問題越想越覺得具有啟發性。
如果資料量大得多呢?
「差不多了……等一下……」我又跟彼得羅在紅門咖啡館一起吃午飯,他又要把我們的拼盤擺成他的霍克尼拼貼畫系列新作,我又浪費了幾分鐘的用餐時間。「完工!」
「嗯,非常漂亮。」我說。我現在連假裝欣賞的樣子都不做了。
彼得羅微笑著看著他的作品,他顯然察覺到了我的不耐煩,但他並不在意。我從他手裡拿回托盤,開始吃飯。
「我一直在想我們的單樣本學習論文。」他轉移話題說,「我為我們取得的成就感到自豪,但我們都知道,資料才是真正的主角。」
我一邊咀嚼一邊點了點頭。
「所以我們要是建立一個全新的資料集,你覺得怎麼樣?這次的規模要更大。我覺得我們可以從頭開始全部自己來做。」
我繼續點頭。
「我的意思是,如果所有這些新資料本身就是達到下一個階段的關鍵所在呢?」
這是一個大膽的想法,足夠冒險,但也有一絲成功機會,所以會很有意思。
「那我們從最顯而易見的問題開始:我們的新資料集應該包含多少個影像類別呢?」
我放下叉子,思考了片刻。加州理工學院有史以來最大的資料集中包含了7個隨機選擇的類別,所以明智的做法似乎是稍微增加一點兒,湊個整數。
「10個怎麼樣?」我提議道。
彼得羅皺了皺眉頭:「是比之前多了點兒,但我覺得是不是有點兒過於循序漸進了?」
我欣賞他勇於冒險的精神,但也不得不考慮現實情況。我知道收集、標記和組織影像的實際工作將會落在我身上,所以我總是盡力平衡我們的研究需求和日常生活的實際問題。
「好。那就15個?」
彼得羅聽到後狡黠地笑了笑。