07 一個假設

ahypothesis

imagenet不僅是一個資料集,它是一個假設、一個賭注,即實現真正機器智慧的第一步,是沉浸在完整的視覺世界中。這個賭注無論被證明是對是錯,我都做好了準備。但我沒想到,它被忽視了。

我開車沿著206號公路疾馳,陽光透過綠蔭的縫隙灑落下來,閃爍著一個個刺眼的光點。這條蜿蜒曲折的雙車道公路很好開,兩旁是高大的喬木,透過樹冠的縫隙,會不時露出地平線上的小鎮。但我卻無暇留意這些美景。我的思緒完全沉浸在另外一個世界。我能集中注意力不至開錯車道,但也僅此而已。

此時,我從加州理工學院博士畢業剛剛一年,但生活已經發生了翻天覆地的變化。母親又病了,這次的病情比以往任何時候都嚴重,然後又突然穩定下來。我也找到了第一份真正的工作,成為伊利諾伊大學厄巴納-香檳分校的助理教授,並獲得了相應的醫療保險。我和西爾維奧結婚了。他也找到了一份工作,不過是在密歇根州。值得感恩的事有很多,但我確實是剛剛開啟學術生涯、個人生活動盪不安的典型代表——我結婚了,但卻是分居兩地,而且仍然和父母住在一起。

對視覺分類本質的研究仍然是我世界的中心。我受邀回到普林斯頓大學,向電腦科學系介紹自己最新的研究成果。對我來說,做講座已經駕輕就熟,但我感覺到這次邀請另有深意——這是招聘程式的第一步,可能會給我帶來在普林斯頓大學的教職。我還不習慣這麼大的利害關係,也很慶幸自己養成了每次回到新澤西就先拜訪薩貝拉夫婦的習慣。從他們家到母校的蜿蜒道路給了我足夠的時間來思考。

不過,我想得最多的並不是講座,甚至不是我的職業生涯。比德曼估計,要為理解視覺世界提供一個完整的基礎,大約需要3萬個獨立的概念。自從我偶然知道這個數字後,我的生活就完全改變了。這個不起眼的五位數成了我腦海中的黑洞,幾乎每時每刻都佔據著我的思維。

一方面,我的直覺與比德曼的一致,我能感覺到他的數字就是對的。「3萬」看上去就像一個證據,是我能以某種方式使用的資料。不過,很明顯,他從來沒有把「3萬」當作源於經驗的確切數量。這是一個典型的估算,與其說是個假設,不如說是舉例說明。然而,出於某種原因,這個數字多年來始終縈繞在我的腦海中。

這個數字啟發了我的思維,讓我對以前從未想象過的規模有了新的認識,但除此之外,它並沒有給我帶來什麼解決之道。3萬這個數字當然很有吸引力,但到底是3萬個什麼呢?我相信,肯定不是將101變成3萬、建立包含3萬個隨機選擇類別的資料庫這麼簡單。這樣的資料庫肯定不僅僅是詞典裡的一套圖解概念。它甚至可能不僅僅是對世界特徵的描述,而是對世界進行整體建模的起點,可以逐個描繪出完整的地球生活圖景,並暗含事物之間的關係,這樣才可以反映整個世界的真正意義。不過這仍然只是我的猜測。

車輛疾駛,時間流逝,我又開始陷入白日夢。太陽石油公司加油站黃藍相間的標誌映入我的眼簾,引發了一連串回憶:以前駕車時沿途的印象不斷閃現,色彩和情緒交織在一起,有的細節清晰,有的細節模糊,所有的記憶都被朦朧的色調包圍,內容豐富,令人回味,卻永遠無法聚焦。然後,我不由自主地露出了微笑,因為我的腦海中浮現出一些具體的事物:薩貝拉先生提到他每天從巴德湖的家到帕西帕尼高中都要走這條路,還有他總是一絲不苟地跟蹤油價——公立學校教師的工資微薄,他要儘量減少油價對錢包的影響。

正是這些看似再平常不過的時空場景激發了我的執著。這才是視覺的真正意義所在。視覺不僅僅是一種「感覺」,至少不是那種可以用溫度計或蓋革計數器測量的「感覺」,而是一種體驗的催化劑。加油站的招牌在我每小時80千米的車速下一閃而過,它的顏色讓我的大腦釋放出了大量資訊和情感。視覺是定義人類思維情感最為重要的能力之一,是通往整個記憶、聯想、概念和推理世界的入口,所有這些都交織在我們與周圍環境的視覺聯絡中。

我的思緒回到了在普林斯頓大學的演講。至少,這是一個我有機會解決的問題。

「我不知道一個語言學家為什麼去聽一個計算機視覺講座,飛飛,但我很高興他去了。」

坐在我對面的是克里斯蒂安·費爾鮑姆(christianefellbaum)。她是一位計算語言學家,也是我在演講結束後的幾天裡遇到的眾多普林斯頓大學的教師之一。她本人並沒有出席講座,但她的一位同事剛好在聽眾席上。這位同事覺得克里斯蒂安會對我的研究感興趣,於是在我的演講結束後立即介紹我們兩個認識。

克里斯蒂安在語言學領域的工作與我的工作幾乎沒什麼關聯,但我們的工作有一個關鍵的共同點:我們都深受認知科學的影響,也都對理解(甚至繪製)大腦如何對世界進行概念化有著極大的興趣。在研究人類視覺的過程中,對感知的內容進行分類的方式深深吸引著我,而這也是她工作中的核心部分,我們的研究內容非常相似。我們都相信類別是視覺(我們看到的事物)和語言(我們描述事物的方式)之間的交叉點。與她交談了20分鐘後,我突然意識到,我甚至不知道是否應該討論一下工作機會的事。但不管怎樣,這件事已經不是關注重點了,因為她接下來問的問題將永遠改變我的職業生涯和人生。

「你聽說過一個叫wordnet的專案嗎?」

我隨後瞭解到,wordnet是心理學和認知科學領域的傳奇人物喬治·阿米蒂奇·米勒(georgearmitagemiller)的傑作。喬治出生於1920年,是當代最具影響力的心理學家之一。他與其他心理學家一同致力於超越人類行為的表象,建立起驅動人類行為的心理過程模型。因此,他自然而然地就對語言結構及其在思維中的作用產生了興趣。他想通過wordnet以極其龐大的規模繪製出語言結構圖。

這個專案的靈感源於兩個同樣雄心勃勃的問題:如果我們能夠將人類通過語言表達的每一個概念都組織到一個龐大的單詞資料庫中,會發生什麼?如果這些單詞不是像詞典中那樣按照字母順序排列,而是根據它們之間的意義聯絡進行連線,會造成什麼影響呢?例如,我們不因為拼寫接近而把「apple」(蘋果)這個詞與「appliance」(器具)進行關聯,而是將它與「food」(食物)、「fruit」(水果)、「tree」(樹)等一系列相關的詞彙進行叢集配對。這樣形成的詞彙資料庫就像一張地圖,將人類所珍視的一切(也就是我們用詞彙描述的一切)排列在一個相連的空間裡。簡而言之,這就是wordnet。

1985年啟動以來,wordnet已經發展到極其龐大的規模,收錄了超過14萬個英文單詞,並迅速擴充套件到新的語言。對時任全球wordnet協會(globalwordnetassociation)主席的克里斯蒂安來說,這幾乎成了一份全職工作。wordnet資料庫範圍極廣,耗時甚久,而且為了精確指導其發展,多年來克里斯蒂安投入了繁重的協調工作,讓我深感敬畏。一想到自己只是花了幾個月時間,找了幾個本科生來給caltech101蒐集影像,我就感到相當慚愧——caltech101的分類深度還不到wordnet的千分之一。此時此刻,我也受到了wordnet的鼓舞,這種感覺久違了。

wordnet是一個啟示。自從大約四年前偶然發現比德曼的數字,只要我醒著,就幾乎無時無刻不在思考這個問題。而wordnet給了我答案,或者至少是啟發。wordnet是人類意義的地圖,在覆蓋範圍和內容真實性方面都很出色,雖然我還不知道計算機視覺如何才能達到比德曼所設想的規模,但至少我現在有了證據,證明這種努力是可行的。我的眼前第一次出現了一條道路,我看到了前行的下一步。

為了幫助我加深理解,克里斯蒂安又提到了一個相關的專案,旨在用視覺示例(如照片或圖表)來闡釋wordnet包含的每一個概念。雖然這個計劃後來被擱置了,但我對它很感興趣。就連它的名字imagenet也似乎在向我傳遞某種資訊。命運又把我往前推了一把,這一次力度更大了。

那天離開校園之前,既往的點點滴滴開始串聯起來。首先是wordnet,一個目標無比宏大的詞彙資料庫,幾乎捕捉了世界上所有的概念,並以人類意義的自然層次組織起來。然後是imagenet,它致力於為每個概念配上一張圖片。比德曼的數字在我的腦海裡創造了一個深不可測的神秘空間,而這兩個專案似乎是對空間的回應。

我問了自己一個既荒謬又顯而易見的問題:如果以wordnet的規模打造類似caltech101的資料集,會發生什麼呢?拋開專案帶來的海量工作不談(事實上,我的腦子裡只閃現出一個詞:不可能),這個想法太有吸引力了,我無法抗拒。資料集必然會達到天文數字的規模,但這不僅僅是規模的問題。規模只是副產品,我們將有更深層次的收穫,那就是前所未有的多樣性,如同其所反映的世界一樣混亂而不可預測。

多年來,我一直沉浸在計算機視覺領域,與彼得羅和克里斯托夫一起研究了數十年的歷史。計算機視覺的謎團日日困擾著我,讓我食不甘味、夜不能寐。而打造巨型圖片資料集的想法讓我感覺眼前一亮,它與眾不同,甚至具有顛覆性,可以成為我解開謎團的下一步。哪怕有一絲讓我更接近新發現的可能性(無論會發現什麼),我都必須加以考慮。

我的思緒翻騰不休,想象著如果以龐大的資料集來訓練演算法,那麼演算法就可以將豐富的視覺線索內化:塑膠的堅硬邊緣、漆木的光澤、動物皮毛的紋理、眼球表面的反射等等——也許演算法可以內化一切事物。我設想著我們將設計出更加靈活的演算法,它能夠區分前景和背景,辨別不同物體的邊界,將實體的表面和體積與光影效果區分開來。

也許存在這樣的可能性:讓演算法能夠識別出任何東西的秘訣,就在於打造一個無所不包的資料訓練集。

在我成為伊利諾伊大學厄巴納-香檳分校的助理教授一年後,普林斯頓大學向我發出工作邀約。這是我職業生涯中最大的突破,我接受了。我終於又回到了新澤西,薩貝拉夫婦非常高興,全家人都特意趕來幫我收拾住所。在我到達的那天,薩貝拉先生、瓊和他們的二兒子馬克(如今已大學畢業)都在普林斯頓大學教工住宅區的入口處迎接我。我的住處就在卡內基湖畔,景色美不勝收,三居室的佈局與我們全家來到美國後住過的宿舍大小的房子相比,簡直如宮殿般豪華。我們的居住面積實現巨大的飛躍,我們很快就意識到,這麼大的房子對搬家三人組來說真是大材小用了。西爾維奧還在安阿伯,而我的父母習慣了狹小的住所,所以我們帶的傢俱還不夠填滿房子的。不過,能跟薩貝拉一家團聚,我感到特別快樂,因為他們已經像我的家人一樣重要了。

「對了,我一直想問你一件事。你什麼時候才能開始叫我鮑勃?畢竟這些年來你一直管我的妻子叫瓊。是時候改口了,你不覺得嗎?」當我朝車子走去,準備搬最後一個箱子時,薩貝拉先生從後面追上來問道。

我愣了一秒才明白他的意思。這麼久以來,他一直是我的良師益友,就像我的第二個父親,直呼其名感覺很奇怪,叫他「鮑勃」就好像他只是我認識的某個普通朋友。「飛飛,我已經不是你老師了。」他笑著說,「我們還是別這麼正式了,除非你想讓我叫你李博士。」

回到普林斯頓大學幾周後,我去找了克里斯蒂安,因為我特別想讓她知道我們上次的見面對我產生了多麼重大的影響。wordnet和imagenet,還有這兩個專案給我帶來的看似荒謬卻揮之不去的靈感,這就是所謂的命中註定吧。現在,我自己也加入了普林斯頓大學的教師隊伍,我備受鼓舞,渴望再向前一步,將想法變為現實,變成大膽甚至瘋狂的專案。

無論等待我的是突破還是失敗,我都感到激昂振奮。科學的追求可能是循序漸進的,但其突破卻是由突如其來的鉅變推動的,而這樣鉅變的引發者,不是某一個孤軍奮戰、雄心勃勃的天才,而是很多人的貢獻被幸運之手匯聚在一起。回想起激發這個想法的種種線索,我不禁感覺即將到來的時刻便是如此。

在離開克里斯蒂安辦公室的路上,我的心中只有一個想法。

「你知道嗎,我一直在想imagenet,你之前說這個專案最後沒能完成。」

「對,挺遺憾的,因為我們招募的本科生覺得專案太無聊了,博士生也不願意碰,因為這算不上什麼意義重大的研究。」

我笑了笑,腦海中閃過為我和彼得羅策劃的資料集下載影像的記憶。但這不是我提到這件事的原因。

「那麼……我可以用imagenet這個名字嗎?它聽起來挺完美的。」我略帶尷尬地笑著問。

西爾維奧跪在dvd播放機前,把碟片推了進去,我聽到機器發出嗡嗡聲。

「今天看哪部電影?」我坐在沙發上問。

「《野草莓》,別擔心,你肯定喜歡,這個電影很經典。」

我們兩個人的職業生涯剛剛起步,壓力都很大,來到安阿伯的校園看西爾維奧,對我們兩個人來說都是一種短暫的解脫。他會親自下廚做飯,也會拉著我一起欣賞他喜歡的電影,跟我分享相關的背景故事。最重要的是,我們可以聊一聊工作以外的事,把大腦暫時從幾乎佔據我們全部生活的工作中抽離出來。看完電影后,我說:「我得跟你說件事,是一個有關研究專案的想法。我過去幾週一直在盤算這件事。」

「所以你根本沒在看電影。」他會意地笑著說。

我哈哈大笑,他也沒說錯。

「我從來沒有對什麼事這麼堅定過。」

「那不好嗎?有什麼問題呢?」

「是好事,只是……」我重重地嘆了口氣,「怎麼說呢,這將是一場賭博。」

事實證明,西爾維奧是我無與倫比的知己。我們都是年輕的助理教授,所處的院系競爭激烈,在事業起步的那幾年裡,我們都面臨著「要麼發表論文,要麼完蛋走人」的局面。壓力之下,我們必須馬不停蹄、保質保量地完成工作,因為我們知道,稍有懈怠就可能與終身教授的職位說再見,一同失去的還有獲得穩定生計的最佳機會。他比我生命中的其他任何人都更清楚其中的利害。

我從頭開始跟他講清楚了事情的原委——雖然過去幾年我一直唸叨的就是這些事,他的耳朵都快起繭子了,比德曼的數字、wordnet、imagenet,還有我的夢想——理論上很完美,要實現很瘋狂。

「飛飛,你現在擁有的一切都是你多年的努力換來的。你拿到了學位,找到了工作,聽起來你還有些靈感,而且你丈夫生活在960多千米之外,所以你肯定也有時間。」

我咯咯笑了起來,他能如此輕描淡寫,真好。

「是啊,但你不覺得這一切都……太出格了嗎?」我問。

他想了一會兒才回答:「你不是一直在追尋出格的想法嗎?」

有上萬個類別的資料集有什麼用?大部分模型連一兩個類別都識別不準!

你知道用這麼多影像訓練一個模型要花多長時間嗎?飛飛,這個時間可是用「年」來計算的。

別人要怎麼下載呢?你這個影像總量比大多數硬碟的儲存量還要大。

具體怎麼做,你有計劃了嗎?幾百萬張圖誰來做標註?要花多長時間?怎麼驗證所有內容的準確性呢?

不好意思,我真的感覺這個專案沒法做。

每當我與同事們討論imagenet的想法,我就越發感到孤獨。雖然有西爾維奧的鼓勵,但這麼龐大的工程剛剛起步,就遭到了幾乎所有人的一致反對,真是不祥之兆。我需要一群志同道合的夥伴,但現在似乎一個隊友都找不到。最糟糕的是,不管我是否同意,我都無法否認他們批評的合理性。

毫無疑問,在2006年,演算法是計算機視覺的中心,而資料這個話題並不十分吸引人。如果把機器智慧與生物智慧做類比,那麼演算法就相當於機器的突觸,或者說是大腦中錯綜複雜的神經迴路。有什麼比讓這些迴路變得更好、更快、更強大還要重要的呢?我回想起我們那篇關於單樣本學習的論文所受到的關注——只需要推出一個閃亮的新演算法,裝飾以華麗的數學公式,就可以立刻引發關注。而資料生活在演算法的陰影之下,僅僅被視為訓練工具,就像成長中的孩子玩的玩具一樣。

但恰恰因為如此,我才認為資料值得更多關注。畢竟生物智慧與演算法存在區別——前者是進化而來的,而進化的本質是環境對生物產生影響。世世代代的祖先在地球上生存繁衍,適應環境,即使在今天,我們的認知也帶有祖先所處世界的印記。正是出於這個原因,索普和比德曼的發現,甚至我們在加州理工學院實驗室的發現才如此引人注目:我們發現,人類幾乎瞬間就能識別出自然影像,因為正是這種感官刺激——或者說正是資料——塑造了我們。imagenet將為我們的演算法提供同樣的體驗:同樣的廣度,同樣的深度,同樣的錯綜複雜,同樣的壯觀。

我聽到的勸阻之聲已經多得夠我用一輩子了(可能下輩子也夠了),最後我終於遇到了第一位支援者。李凱教授是微處理器架構領域的領軍人物。微處理器架構是一門將數百萬奈米級電晶體排列到世界上最複雜的裝置中的藝術,因此他比大多數人都更瞭解指數思維的力量。他相信我的方向是正確的。儘管我們都在電腦科學領域,但領域之間沒有太多交集,所以他無法直接為我做出貢獻,但他知道我們需要強大的計算能力才能啟動。他毫不猶豫地為我們的研究捐贈了一套工作站。這正是我所需要的支援。

我和李凱是普林斯頓大學電腦科學系教師中僅有的兩位中國移民。他出生於20世紀50年代,是中國恢復高考後第一批上大學的人,80年代來到美國攻讀研究生。在那個時代,像他這樣的移民寥寥可數,他也很難找到有共鳴的同齡人。這段經歷塑造了他活潑隨和的個性,從他身上,我既能看到我母親的聰明睿智,又能看到我父親的謙遜幽默。李凱看起來就是個普通的教授,黑頭髮,大偏分,衣著樸素。但他笑容溫暖,為人慷慨。我們很快成了朋友。

隨著我對李凱的瞭解日益加深,我越來越明白他為什麼比其他人更看好我的想法。他是高效連線微處理器和巨大記憶體儲存的先驅,與他人共同創辦了一家公司,把自己的研究成果商業化,最終以20多億美元的價格售出。他不僅是大規模資料威力的早期信徒,也是利用大規模資料的專家。不巧的是,他即將休長假,這縮短了我作為他的年輕同事的時間。不過,他的離開也不完全是壞事。他有一個極聰明的一年級研究生叫鄧嘉,他要給鄧嘉找個新導師。據李凱介紹,鄧嘉是一個完美的合作者,他年輕有為,工程天賦出眾,對新的挑戰充滿渴望。

李凱和鄧嘉在很多方面都截然相反。李凱開朗外向,鄧嘉則內斂穩重。李凱激情四射,鄧嘉則顯得冷漠沉靜。因此我擔心自己難以判斷他對我們的工作是否有興趣。我們進行了幾次交流,我能看出他非常出色,就算沒有李凱的推薦,這一點也是顯而易見的,但我從來沒見過像他那樣大智若愚、不露鋒芒的人。

除了聰穎過人,我也注意到,鄧嘉是計算機視覺領域的新人。他的背景與眾不同,因此他不僅具備一般計算機視覺專業學生難以擁有的工程技能,同時還完全沒有揹負期望的包袱。這個專案不同於傳統的研究專案,甚至可以說充滿風險,與當時的領域潮流格格不入。對於這一切,鄧嘉並不知情。

於是,我們兩人組成團隊,開啟了這個似乎需要成千上萬甚至更多貢獻者的專案。大多數同事對我的假設都不屑一顧。單從理論上講,這一切確實說不通,但這是我人生中第一次感受到一種毋庸置疑的自信。無論需要多長時間,我確信我們正在做一件大事,一件也許具有歷史意義的大事。

我的新辦公室位於普林斯頓大學的電腦科學大樓,雖然已經搬過來快四個月了,但地上依然堆滿了半開的紙箱,牆壁上也空空如也。我靠在扶手椅背上,大聲撥出一口氣,轉了轉椅子。鄧嘉坐在我對面的沙發上——這是我到目前為止為辦公室添置的唯一傢俱。

「好吧,看看我們能不能弄清楚專案規模究竟有多大。」

我們以wordnet為起點,開始進行刪減。雖然wordnet的賣點是規模巨大、細節豐富,但我們知道,其中的大部分內容對我們來說並不必要。imagenet的目的是捕捉事物的世界,而不涉及動作或描述,因此我們明確了第一批要刪除的內容:所有的動詞和形容詞。但就算只剩下名詞,處理起來也很複雜。像「真相」或「意識」這樣的抽象概念是沒有辦法用影像記錄的,只有指代實體物件的名詞才會被納入資料庫。一般來說,我們需要的是有形、可數的物體。其他詞彙都被刪除了。

總的來說,wordnet中的14萬個條目大部分都被我們刪除了,只剩下可以用影像表示且可以計數的一小部分,約有2.2萬個,雖然這個數量仍比我聽說過的任何機器學習訓練影像集都要大很多倍,但與初始的詞彙量相比,已經大幅減少,而且跟比德曼估算的3萬個種類非常接近。

鄧嘉問道:「那多樣性要怎麼處理?每個類別需要多少張不同的圖片呢?」

啊,我心想:現在終於有點兒眉目了。

我說:「那我們從生物學的角度思考吧。孩子是怎麼長大的?我們的物種是怎麼進化的?現實世界非常複雜,對不對?沒有什麼是非黑即白的,一切都在不斷變化,但是我們依然學會了如何理解世界。我們生活在所有這些細節當中,自然而然地就成了專家。」我拿起桌上的馬克杯,「但你問到了數字。那你告訴我,這個杯子在照片裡有多少種不同的外觀呢?」

鄧嘉想了一會兒,回答道:「首先是尺寸不同。杯子在照片裡可能會顯得很大,也可能會顯得很小,這取決於它跟相機之間的距離。」

「你說的沒錯,但我想要一個具體的數字。有多少個不同的尺寸呢?」

他又想了一下,然後聳了聳肩:「那可能是無限多的,對吧?沒有辦法給出具體的數字。」

「又說對了。」我狡黠一笑。鄧嘉完全知道我說這些話是什麼意思,但他願意聽我細細道來,得出結論。「所以尺寸是無限的。還有什麼?」

「光線?杯子可能在明亮的光線底下,也可能在陰影中。還有顏色的區別。什麼顏色的杯子都有,有些杯子上面還有圖案或者文字。」

「很好,很好,那每一個條件會有多少種變化呢?」

「一樣的,這兩種情況都是無限的。」

「我們這才剛剛開始。那角度呢?杯子的把手朝向哪邊?是從上方看還是從正面看?還有遮擋物。杯子前面有什麼東西嗎?是一摞書,還是貓的尾巴?或者是另一個杯子?還有背景。杯子後面是一面牆,還是一扇窗?杯子是在櫃子裡嗎?」

「無限,無限,無限,無限。」鄧嘉總結得相當準確。

我越想越覺得我們的研究具有發展潛力——我們正在嘗試以資料的形式來複制兒童認知的形成階段。我想象著孩子玩東西的方式,他們伸出手去抓、戳、摸索、撥弄。他們把東西拿起來,翻來覆去,從不同的角度觀察,適應光線和視角的變化。他們玩躲貓貓遊戲,瞭解到即使物體被暫時隱藏起來,它們也依然存在。這些都是我們的演算法非常缺乏的本能。

「你說得對,但我們還是沒有確切的數字。」鄧嘉邊想邊說,「到目前為止,我們一直在用無窮大乘以無窮大。到底該怎麼辦呢?」

我回答道:「我要說的就是這個,再多的影像也不夠。不管我們想到一個多大的數字,我們都應該想到它還可以更大,然後還要更大。反正怎麼著都是在猜,那就不如往大里猜吧。」

於是我們確定了一個目標,為每個物品類別蒐集1000張不同的照片:1000張不同的小提琴照片、1000張不同的德國牧羊犬照片、1000張不同的抱枕照片,直到涵蓋全部2.2萬個類別,也就是一共需要大約2000萬張圖片。但即便是這個數字,也只是最終成品資料庫的情況。我們可能需要從數億張照片,甚至10億張照片中篩選,才能達到目標。

鄧嘉面露疑色。「我從理論上能理解,但這個工作量也太大了,屬於天文數字,可不是谷歌搜尋幾次就能完成的。」

他說的當然沒錯,但是我們需要擁抱現實,而不是逃避現實。我們的目標是捕捉完整的現實世界。如果這個總數不能嚇到我們,那才奇怪呢。

「鄧嘉,我們希望演算法能夠看到的一切事物都存在於這個世界的某個地方。在我們說話的這一刻,就有人在拍攝這所有的細節。現在人人都有翻蓋手機,每個人的聖誕節禮物都是數碼相機。想象一下,如果把所有這些照片都放在一起,我們會看到什麼,我們會看到整個世界的縮影啊!那就是從世界一頭到另一頭的日常生活的全部。」

「就算我們想辦法組織好了圖片,」他補充說,「這些影像本身也沒有任何作用,對吧?它們需要先標註,才能用於模型訓練,而且每一個標籤都必須是準確的。」鄧嘉暫停了一下,好像才感受到自己說的話有多麼重要,「聽上去又是一個浩大的工程。」

「是啊,是啊。」我回答說,「讓我們一次只創造一個奇蹟吧。」

我和鄧嘉在實驗室一角,看著一排本科生不斷地點選滑鼠、敲擊鍵盤。本週早些時候,我們發出了郵件,招募願意幫忙從網上下載和標註圖片的本科生,工作時間靈活,每小時10美元。我們很快就收到了一些回覆。這看起來很公平:我們朝著機器智慧的新時代邁進了一步,而大學生也能賺到一些啤酒錢。一時間,我們感到心滿意足,但沒過多久,現實就給我上了一課。

「鄧嘉,是我的錯覺嗎,還是進展確實有點兒太慢了?」

「對,我也很擔心。我對他們的速度做了幾分鐘計時,計算了一下。」

不妙。

「按照目前的速度,預計imagenet的完工時間是……」

我用力嚥了一下口水。他注意到了。

「沒錯,差不多要19年吧。飛飛,我很看好這個專案,真的,只是我不能等那麼久才拿到博士學位。」

有道理,鄧嘉。

「那我們該怎麼辦呢?」他問,「再多找些本科生?」

「這當然是一種選擇,但是得花不少錢。如果真要19年的話,我覺得我們實驗室的預算也是不夠用的。」

不管怎樣,顯然我們需要更多的大學生。當年做caltech101的時候,招募的大學生勉強夠用,而那次的工作量不過是imagenet的零頭。看來,我們必須採取新的策略了。

我想到鄧嘉在加入我的實驗室之前,一直在跟李凱研究各種極其複雜的系統,在工作中遵循效率為先的原則,以實現更高的效能、更低的成本、最短的路徑。作為世界上最重要的微處理器設計師之一的門徒,他肯定能想到辦法提高這些大學生的生產力。

「等等,鄧嘉。」我指了指那些大學生,「這是一個流程,對不對?我的意思是,在某種程度上,這不就是一個工程問題嗎?」

他沉思了片刻,然後看了看我,眼神里流露出準備擼起袖子大幹一場的堅定。

「好吧。」他微微一笑,「那咱們就看看怎樣最佳化吧。」

接下來的幾個月有了一種節奏感,雖然這節奏感無法用優雅來形容。imagenet是一隻拒絕被馴服的野獸,每當我們靠得太近時,它就會猛烈反擊。在不懈努力下,我們終於取得了一些勝利——至少是小小的勝利,同時也累積了更多的擦傷和瘀青。但每當我們以為終於把它逼到牆角的時候,它就會發出一聲更低沉、更嘶啞的咆哮,把我們嚇得四下奔逃。

我很幸運,遇到了鄧嘉這樣一個愈挫愈勇的夥伴,他在面臨難題時會加倍開動腦筋。在我們的流程中,人工參與是成本最高的部分,包括時間成本和金錢成本。所以他從成本入手,以「將成本降到最低」為個人使命。例如,當我們的標註員開始為特定類別整理照片時(比如「彭布羅克威爾士柯基犬」),最初我們預計每個步驟都需要手動完成:在谷歌圖片等搜尋引擎中輸入關鍵字進行查詢;梳理結果,找到清晰的例子;對每個例子進行標註;將最終選擇的照片放在適當的目錄中。但這些步驟大部分並不需要人類的智慧。

鄧嘉實現自動化的第一個環節就是下載。之前下載圖片,需要標註員手動在圖片搜尋引擎輸入wordnet中的每個類別,現在鄧嘉編寫了自動化程式。但由於搜尋引擎是為人類使用者而不是為機器服務的,所以不會直接返回一組影像,而是以滾動縮圖網格的形式呈現在頁面上。這時,鄧嘉設計的程式就會解析網頁的原始碼,找到連結,並下載原圖。儘管這個解決方案有些混亂,但可以讓我們以最快的速度日夜不停地下載候選圖片。我們想要下載多久,就可以下載多久,如果需要的話,連續幾個月都行。下載的圖片會自動整理在我們自己的機器上。

我們的資料庫開始像變魔術一般被圖片填滿。誠然,我們這種廣撒網的方式也撈回了很多垃圾,比如低質量的照片、剪貼畫等,但也積累了大量高畫質圖片。我們迅速填滿了大量硬碟,現實世界的影像逐漸在圖片中成形,雖然還很粗糙,卻讓我們第一次看到了對整個視覺世界的真實描繪。至少有一段時間是這樣的。