07 一個假設

「糟糕。」我聽到鄧嘉在實驗室的另一邊說。

「怎麼了?」

「看上去出了點兒小問題。呃……沒錯,我們被谷歌封禁了。」「什麼?封禁了嗎?為什麼?」

「顯然是他們限制了單個使用者在特定時間段內可以提交的請求數量。據我所知,大約在1000個左右。」

「特定時間段是多久?」

「24小時。午夜開始重置。這算是個好訊息。」

「好吧,那我們每天多久會達到請求數量的上限?」

「嗯,這就是壞訊息了。」鄧嘉拿出日誌檔案,心算了一下,「大約9分鐘。」

大事不妙。

圖片儲存庫的增長停滯了。但我們的問題不止於此。整個流程的上下游極不平衡,甚至有些可笑。我們蒐集的原始圖片呈爆炸式增長,在遭到谷歌遮蔽之前,每天都有數以千計的新圖片新增進來,但其中只有一小部分得到了準確的標註和整理。雖然我們從一開始就知道標註流程將會是一個瓶頸,但隨著時間一週周地過去,這一環節給我們造成的負擔還是讓我們感到氣餒。

我跟鄧嘉在校園的馬太餐廳討論了這個問題。自從imagenet佔據我的大腦,我甚至覺得做飯都是浪費時間,於是對校園餐廳的依賴與日俱增。此外,沒日沒夜地在實驗室工作,我也很想換個環境。餐廳的天花板很高,吊燈簡樸,彩色玻璃賞心悅目,讓我們覺得彷彿在修道院裡找到了避難所。

我們詳細討論了標註員在識別、分類和標註每張圖片時所遵循的每個步驟,並儘可能使用快捷方式和定製工具來對它們進行簡化。如果一個流程需要點選三次滑鼠,鄧嘉會想辦法實現只需一次點選。減少打字次數,縮短滑鼠移動距離,提高所有操作的速度。在我們交談的時候,我不禁開始仔細觀察桌上的物品,默默猜想它們是否屬於我們那2.2萬個類別。「餐巾」這一條目自然在列,但我們區分佈餐巾和紙餐巾了嗎?那是一把什麼刀?除了「牛排刀」和「黃油刀」,還有多少種刀呢?「切肉刀」,我猜。「麵包刀」?也許吧。仔細一想,確實有很多。這些我們都涵蓋了嗎?我在心裡默默記下,打算回到實驗室後再確認。

「對了,飛飛,你知道什麼是動態ip嗎?」鄧嘉又拿出一個錦囊妙計。

「可以把動態ip看作是我們的機器連線谷歌伺服器的中間環節。我們的實驗室計算機保持不變,但動態ip會將我們與不斷變化的中間商連線起來,這樣谷歌就會認為那些搜尋請求來自不同的使用者。」

「這樣我們就不會超過限額了?」

「遠遠不會。」

我們重整旗鼓,至少在一定程度上恢復了工作。標註依然是個問題,但看到備選的相簿規模持續增加,我還是長舒了一口氣。現在,就算是小小的勝利也值得慶祝。

幾個月過去了,imagenet已深深植根於我的內心,成為我觀察一切事物的鏡頭。無論是在實驗室工作,還是在院子裡散步,我都偷偷玩著視覺識別遊戲。如果有人在遛一種我不認識的狗,我會想,是不是應該專門為這種狗建立一個子類別?騎獨輪車的學生可能讓我想到資料庫裡是不是沒有「獨輪車」這個詞,更不用說不同種類的獨輪車了——說到這個,有不同種類的獨輪車嗎?父親喜歡的車庫市場經歷成了我的世界。一切都被放大到難以理解的程度,但其精神是一脈相承的——永不滿足的好奇心,對新奇事物的渴望。我好奇我們家族是不是有這種基因。

奮鬥繼續,每走一步都是為了應對新的難題。我們發現特定類別的搜尋結果過於相似,無法滿足我們多樣性的目標。於是,我們使用wordnet的國際翻譯來提交不同語言的查詢,希望來自世界各地的影像能夠帶來更大的差異。當找不到足夠的圖片時,我們就會在搜尋詞中新增相關術語,比如,不是搜尋「柯基」,而是搜尋「柯基小狗」或「柯基犬公園」。後來,搜尋引擎巧妙地重新設計了搜尋結果頁面的佈局,改變了每個圖片連結的位置,導致鄧嘉的一個自動下載程式無法繼續使用,於是我們重新編寫了與之匹配的程式,並開始定期檢查是否發生了類似變化。

對一年前還在設計微處理器架構的鄧嘉來說,這些都是非常平淡無奇的工程挑戰。儘管如此,我們兩個都知道努力是有意義的。它們可能只是權宜之計,過於簡單,甚至粗糙,但每解決一個問題,我們都離自己的願景更近一步,這個願景就是讓機器看到一個完整的世界;我希望在不久之後,機器甚至可以理解這個世界。

「斜管麵嗎?」我問。

「說對了!」西爾維奧把一碗熱氣騰騰的義大利麵放在我的面前,高興地回答道。

「等等,我們上週吃的那種叫什麼?也是管狀的,但更大,而且邊緣不是斜切的。」

「那是粗通心麵。」

「沒錯!粗通心麵。那個我也喜歡。」

「你這麼問,是因為你真的對我們國家的食物感興趣,還是因為你在想imagenet裡的義大利麵的型別夠不夠多?」

我趕緊吃了一口面,對他的問題避而不答。而他則坐下來,雙臂交叉,顯然對自己的偵探技巧頗感自豪。

「不能兩者兼有嗎?」我最終回答道。

做imagenet已有一年時間,我感覺我們已經步入正軌。有了標註團隊的工作,還有鄧嘉在不斷努力最佳化標註流程,我確信我們已經有所突破。我很好奇進展如何,而鄧嘉知道我的想法(他經常能知道我在想什麼)。

「你在想我們多久能完成imagenet?我已經重新預估時間了。」

我正準備問他這個問題。於是我興奮地跑到他的辦公桌前。

「好的,如果我們把所有因素都考慮在內:我們所有的最佳化和快捷方式,再加上已經標註的圖片,我們已經設法將19年的預計時間縮短到……」

我突然失去了勇氣,因為我預感結果會很糟糕。

「……大約18年。」

鄧嘉雖然才華橫溢,但巧妙地傳達壞訊息、減輕它對人的打擊並不是他的技能之一。這麼久以來,我第一次不知道接下來該怎麼辦了。

絕望激發了一種巴洛克式的創造力——當處境之慘淡變得越來越難以忽視時,我們想出了各種各樣的點子,確實顯得有些慌不擇路。我們甚至想用機器來輔助我們的人工標註員。當然,這裡涉及一些迴圈論證:如果演算法能夠足夠準確地識別物體、幫助我們進行標註,那麼我們壓根兒就不需要imagenet了。然而,我們也想知道如果讓機器扮演輔助角色,是否會帶來一些便利。例如,我們可以讓機器利用我和彼得羅開發的單樣本學習技術,粗略但快速地標註大量影像,這樣人工團隊就可以更多地扮演編輯或校對的角色。這樣做雖然有一定的道理(道理不多,且有待商榷),但我們始終未能找到合適的平衡點。

更重要的是,反對標籤過程自動化的真正原因並不是在技術層面,而是在哲學層面。我們意識到,即使是微妙的演算法捷徑,也與imagenet的使命背道而馳。我們的目標是在每幅影像中都嵌入純粹的人類感知,希望在整個影像集上訓練出來的計算機視覺模型也能迸發出類似人類的智慧火花。使用機器可能會削弱這一點。

如果人力是瓶頸,而我們又無法再繼續減少人工參與,那麼我們剩下的唯一選擇似乎就是蠻幹:擴大我們的標註員團隊,把預計完成時間從近20年縮至更短的期限。也許只需要增加10倍的人手——考慮到已經完成的工作,這樣可能在一年半內就能達到目標。然而,我們的資金根本就不夠。在投入瞭如此多的感情之後,最後竟然因為錢的問題而做不成,想想就令人憤懣。

「嗯。」我說,身體向後一靠,抬頭盯著實驗室的天花板。我突然有了一個想法。一個奇怪的想法。

「怎麼了?」鄧嘉從他的工作臺上抬起頭。

「我也說不準。我倒是能想到怎麼可以籌到一些額外的資金,雖然不多,但聊勝於無。這絕對是萬不得已的辦法。」

「我聽著呢。」鄧嘉說著,湊近了一點兒。

我深深地陷進椅子裡,緩緩地撥出一口氣。我簡直不敢相信自己即將說出口的話。

「你對乾洗瞭解多少?」

我把遮光板翻下來,眯起眼睛看著夕陽。當車輛以每小時110千米的速度行駛時,視野會有些模糊,但看到的東西依然非常豐富。反光柱和里程標從我們的右側飛速閃過,周圍是瀝青路面上的裂縫、岩石碎片,偶爾還有塑膠瓶或皺巴巴的快餐袋。各種各樣的標誌呼嘯而過,提醒我們注意限速、高速公路出口快到了,或者感謝一神論教堂的當地分會對下一千米道路的維護。車牌和保險槓貼紙。一隻狗坐在副駕駛座上。

我們正在前往明尼阿波利斯的路上,2007年的計算機視覺與模式識別大會(conferenceoncomputervisionandpatternrecognition,cvpr)就在那裡舉行。隨著我們的現金儲備不斷減少,imagenet已經岌岌可危,但有傳言稱實驗室之外的世界依然存在,人間已是美麗盛夏。這次會議給我提供了一個完美的逃避藉口。我租了一輛廂式車,載著實驗室的幾個學生前往參會。我期待著在這近2000千米單調而幸福的旅途中,可以暫時把工作放到一邊,思考一些其他事情,任何事情都好。在接下來的幾天裡,我們唯一需要關心的事情就是吃飯、上廁所,還有聽哪個電臺。

可惜,沒有什麼能夠阻止我對視覺世界的痴迷。我們開車穿過森林,我就忍不住好奇我們路過的是什麼樹,是楓樹、白蠟樹,還是白樺樹?我們看到了麥迪遜這樣的大學城,霓虹燈招牌閃爍,人行道繁忙,一個戴墨鏡的學生躺在長凳上,三人樂隊正在賣藝,一個彈木吉他,一個彈立式貝斯,還有一個在吹口琴。我們穿過熙熙攘攘的城市,幾何造型的摩天大樓高聳入雲,外牆反射著太陽的光芒。我們沿著五大湖行駛,不知道眼前這個是伊利湖還是密歇根湖,太陽照在水面上,浮光躍金,浪花拍打著岸邊,孩子們追逐著潮水來回嬉鬧,一對夫婦在沙灘上玩飛盤。

我再次想起了父親。最近我常常想到他。他會在舊貨攤之間徘徊,仔細檢查二手面包機或錄影機,他的痴迷沒有止境,他的喜悅充滿感染力。我不禁好奇自己的臉上是否也有同樣的表情。

我想,生活中需要了解的東西太多了。很多東西都是通過眼睛看到的,但我的直覺和內心也都感受到了。imagenet可能註定要失敗,但無論結果如何,這個專案的目標都是值得追求的。遲早會有人破解難題。當他們成功的時候,當整個世界連同它所有的色彩、混亂和世俗的魔法都湧進我們機器的思想中時,一切都將改變。

「飛飛,你現在有自己的實驗室了,最近在忙什麼呢?」

這是我最害怕聽到的問題,但這個問題來自吉滕德拉——彼得羅的導師,也是我的「師爺」,他是我此行最想遇到的人。我們已經好幾年沒有面對面交流了,我知道他會出席計算機視覺與模式識別大會這樣的活動。imagenet專案停滯不前,我的學術生涯前途渺茫,我需要見見熟人。他也不是第一次在這種場合鼓舞我的鬥志了。

「說實話,吉滕德拉,這個話題有點兒讓人鬱悶。」

「哎呀。」

我把一切都如實告訴了他:我和克里斯蒂安的談話,第一次見到wordnet時的情景,我和鄧嘉所做的決定——每個決定都比上一個更艱難,以及這一年來我們為實現一個不可能實現的目標所經歷的苦苦掙扎。

「還真曲折呀。」他回答道,語氣一反常態地平淡。如果他對我目前介紹的進展情況有什麼意見的話,他會選擇閉口不談。

「是的。最糟糕的是,這一切歸根結底是個後勤問題,而不是科學問題。我始終確信,imagenet正是計算機視覺所需要的,要是我們能把這玩意兒搞出來就好了。」

「飛飛……」他開始小心翼翼地組織語言,「當然,沒有人會不認同資料起著一定的作用,但是……」他停頓了片刻,然後繼續說道,「坦率地說,我覺得你們在這個想法上投入得過多了。」

我淺淺地吸了一口氣。

「科學的訣竅是跟隨著你的領域一起成長。不要太超前。」

這真是出乎我的意料。吉滕德拉竟然站在反對者的一邊,讓我深受打擊。這種打擊不僅僅是在個人層面:等到我將來需要請人寫終身教職推薦信的時候,我原本計劃請他做我的推薦人之一(雖然在這樣巨大失敗的陰影籠罩下,能獲得終身教職的可能性已經變得非常渺茫)。出於多方面的原因,他的觀點很重要。

我幾乎可以看到我的北極星在逐漸暗淡下來,我的道路又陷入了黑暗之中。一個可怕的想法開始在我心頭升起:我承擔的風險比我意識到的更大,而現在回頭已經為時太晚。

在計算機視覺與模式識別大會之後的幾個月裡,我都不知道應該如何處理imagenet。要擔心的事情有很多,但我總會想起鄧嘉。他進入計算機視覺領域時才氣過人卻又稚氣未脫,他信任我,讓我擔任他的導師。現在,我能感覺到他的挫敗感越來越強,我知道他在擔心自己的博士之路,我完全能理解他。我還記得自己在研究生時期的種種掙扎,一想到現在要把自己的學生引入歧途了,我的胃裡就陣陣難受。

當然,科學研究上的挫敗也同樣令人痛苦。在經歷瞭如此漫長的旅程之後,我無法接受我的直覺居然導致了錯誤的道路。我們突然失去了方向,彷彿頭頂上是一片空蕩蕩的天空,在黑色波浪中漂泊。

然而,一切都還沒有結束。

「打擾一下,飛飛。」

我正在趕去教職工會議的路上,馬上就要遲到了,一個叫孫民的研究生突然出現在我面前。他能看出我在趕時間,但他看上去非常想要跟我聊聊,說話的時候甚至顯得有些不安。

「請問你現在有空嗎?」

他沒等我回答。我對他比較瞭解,知道他說話時一般都是輕聲細語的。看他今天的表現,顯然是有大事壓在心頭。

「昨天我跟鄧嘉在一起,」他繼續說,「他跟我說了你們在專案標註問題上遇到的麻煩。我有一個你倆還沒試過的辦法,真的可以幫你們提高速度。」

我立刻忘記了自己還在趕時間,耳朵豎了起來。鄧嘉還有社交生活?

孫民問道:「你聽說過眾包嗎?」

他解釋說,線上平臺可以將任務分配和結果收集過程自動化,有效組織遠端的臨時工作團隊,規模小到個人,大到數百萬人的團隊。「如果你感興趣的話,亞馬遜就在提供這種服務,叫作‘土耳其機器人’。」

這個名字很妙,源於18世紀的一種會下國際象棋的自動機器「土耳其機器人」。當時,這個機器人在世界各地巡迴展出,被視為一個工程奇蹟。它棋藝高超,就連國際象棋高手也甘拜下風。但實際上這個裝置純屬騙局:在機器人底座裡就藏著一個人類國際象棋大師,正是這個人在操控機器,讓觀眾既興奮又困惑。

幾個世紀後,新興的眾包實踐基於同樣的理念:真正的智慧自動化仍然最適合由人類來完成。亞馬遜土耳其機器人(amazonmechanicalturk,amt)圍繞這個概念建立了一個市場,「請求者」可以釋出「人類智慧任務」,由貢獻者完成,這些貢獻者被稱為「土耳其人」(turker),他們可能來自世界上的任何地方。從理論上講,這個模式很合理,似乎可以提供我們想要的一切:既有人工標註圖片帶來的智慧成分,又有與自動化相當的速度與規模。有趣的是,亞馬遜稱之為「人工人工智慧」,這個名字相當貼切。

我急匆匆地穿過走廊找到了鄧嘉,但他並沒有像我這般興奮。在經歷了種種挫折之後,他有充分的理由對再次碰運氣保持警惕。但在經歷了這一切之後,他可以看到,這真的可能是我們一直在等待的救命稻草。他看起來既猶豫又寬慰。最終他同意了:亞馬遜土耳其機器人值得我們再試一次。

我的北極星開始重新閃耀,我不禁再次感嘆時機的重要性。imagenet之所以能夠存在,要歸功於網際網路、數碼相機和搜尋引擎等眾多技術的融合。現在,一個一年前還幾乎不存在的平臺提供的眾包服務,成為讓我們的專案臻於圓滿的關鍵因素。這件事就是最好的例證,它讓我深刻了解到,任何一個科學家的預設立場都應該是絕對謙卑,他們應該明白,沒有哪個個體的智慧能有意外之力的一半強大。

亞馬遜土耳其機器人改變了一切。它把我們起初的大學生標註員隊伍變成了一個由數十人、數百人、數千人組成的國際團隊。隨著我們獲得的支援不斷擴大,鄧嘉給出的預計完成時間急劇縮短,先是15年,然後是10年、5年、2年,最後不到1年。這為我們提供了全新的視角來看待預算,徹底顛覆了imagenet的成本效益。曾幾何時,我們的預算只能招到幾個標註員,連一個房間都站不滿,而現在足以聘請一支遍佈全球並通過網際網路連線的眾包團隊。

在這個過程中,我開始越來越多地利用我在實驗心理學方面的經驗,幫助鄧嘉建立一套系統,既可以最大限度地利用標註員的時間和注意力,又能儘可能地減少他們被誤導、困惑或被操縱系統的機會。有時,土耳其機器人感覺就像我和克里斯托夫在加州理工學院做的人類心理物理學實驗,目標是從陌生人的感知中提取微妙但重要的資訊,只不過現在將範圍擴大到了全球。在某些方面,工作難度降低了:我不需要去閱讀別人的想法,而只需要把正確的標註應用到我們批次下載的圖片上。然而,與此同時,工作也複雜多了:標註圖片看似簡單,但在實際操作上,卻需要從數以萬計的預定義列表中精確選出正確的類別。

然而,並非所有挑戰都是技術性的。還有一些人文問題,比如人們對眾包可能具有剝削性的擔憂。雖然這種可能性直到多年後才引發廣泛討論,但即使在當時,也很難避免這種思考。這種反思促使我們在資金允許的情況下,為每張影像支付儘可能多的費用。imagenet是一項純粹的科學研究專案,無須考慮利潤問題,這讓我們做決定變得容易很多。

對相關問題的研究也令人振奮,至少在當時是這樣。2007年亞馬遜土耳其機器人的一項人口統計發現,大多數貢獻者將這項服務視為一種愛好或副業收入,而不是謀生的主要手段。當然,隨著零工經濟在後來幾年的興起,情況變得複雜很多。如今,已經很難將大資料的力量與其人力成本分離開來。

就這樣,每天都有成千上萬張新影像被標註出來。在imagenet發展的高峰期,我們是土耳其機器人平臺上最大的僱主之一,這一點從我們每月的服務賬單上也能看出。成本的確很高,但效果也很顯著。

然而,我們的預算困境還沒有結束。雖然土耳其機器人價格合理,但imagenet規模實在太大,所以我們很快發現自己再一次接近預算極限。從嚴格意義上講,我們知道我們有能力完成這項工作,但我們不能排除可能發生的附帶損失。imagenet可能是我們最大、最昂貴的單個專案,但它遠不是唯一的專案;我們同時還在繼續研究演算法,研究生和博士後都在探索識別照片中物體,甚至是在影片中識別人類動作的新技術。每位研究人員都享有生活津貼,我們在提供津貼的同時,還為每個實驗室都準備了額外的現金,以備不時之需。imagenet比以往任何時候都更接近完成的目標,但在這個過程中,它也把其他專案都推向了邊緣。

在兩年多的時間裡,我們的財務狀況一直岌岌可危,那是一段痛苦的日子,哪怕是路途中的一個小顛簸,都有可能讓我們人仰馬翻、一蹶不振,但imagenet日臻完善,終於成為我和鄧嘉一直憧憬的研究工具。我們實驗室自然是第一個將其投入使用的。即使是在未完成的狀態下,它的影響力也讓我們備受鼓舞。完工在即,我們不再需要依靠想象力;大家第一次清楚地意識到,我們正在創造一個值得與全世界分享的東西。

在那段時間裡,我工作之外的生活異常穩定。母親的健康狀況如預期中一樣繼續惡化,但自她從乾洗店退休後,就再也沒有遇到過我們一直擔心的那種令人心驚肉跳的危機。她甚至還培養了業餘愛好,對攝影產生了濃厚的興趣。父親的生活方式也變得更加休閒,多年來第一次可以自由地享受烹飪的簡單樂趣。我和西爾維奧之間的距離仍然讓我們感到困擾,但我們在安阿伯和普林斯頓之間已經往返太多次,幾乎形成條件反射了。事實上,由於西爾維奧每次來看我都是同一個路線,後來連飛行員都認得他了。

我還開始不定期地前往舊金山灣區,拜訪斯坦福大學的機器學習和計算機視覺先驅,其中包括吳恩達(andrewng)、達夫妮·科勒(daphnekoller)和塞巴斯蒂安·特龍(sebastianthrun)。我們見面時會先進行友好的思想交流,他們會對imagenet給予肯定(這類對話為數不多)。不過,就像幾年前在普林斯頓大學時那樣,對話很快就會變得更加正式。最後,我接到了電腦科學系主任比爾·達利(billdally)的電話,他代表了官方的意見,詢問我是否有興趣把實驗室搬到加州。

我在普林斯頓大學做教師尚不到三年,無法想象在此時另謀職業。但我從來沒有親身體驗過斯坦福這樣的大學,也沒有經歷過矽谷這樣的地方。我在新澤西州的一個移民社群長大,之後幾年一直隱居在學術界,除了中餐館和乾洗店,我對商業世界知之甚少。相比之下,斯坦福大學處於科技行業的核心地帶,我們研究探索的想法在這裡得到了全球範圍的實踐。雖然我個人對進入這個世界並不渴望,但斯坦福大學給這個世界帶來的影響力給我留下了深刻的印象,惠普、思科、太陽微系統、谷歌等眾多公司都與這所學校有著千絲萬縷的聯絡。我在這裡遇到的每個人似乎都被觸及真實人類生活的可能性激勵著。

儘管如此,對於搬到灣區這件事,我的內心還是非常矛盾。普林斯頓大學對我的職業生涯的幫助比其他任何學校都要大。在我高中畢業時,普林斯頓大學通過一攬子經濟援助計劃,在一個下午就改變了我的人生,每次回想起來都讓我感動不已;然後它又給了我第二次機會,讓經驗尚淺的我擔任助理教授,還為我提供了自己的第一個實驗室和第一個博士生,讓我有機會與我熱愛和敬重的同事們一起成長。

我還要考慮一些人,而且比以前考慮得更多。父母的需求把我推向了一個方向,因為在帕薩迪納的生活表明,西海岸的氣候對母親來說更為溫和。但對薩貝拉一家的思念又把我推向了另一個方向。他們不再是我的「美國」家人,而是我真正的家人。一想到我們又要遠隔幾千千米(這次也許是永遠分開了),我就非常心痛。西爾維奧介於兩者之間,不管怎樣,他都會留在密歇根,只是我搬到加州會讓我們異地婚姻的距離更遠。

然而,如果僅是以一名科學家的身份來做決定,那就簡單多了。我處於迅猛發展的年輕領域,這個領域有希望在我的有生之年改變世界。我在斯坦福大學遇到的人同我一樣,由衷地相信這一點。普林斯頓大學讓我有家的感覺,但我不能否認,斯坦福大學似乎更適合我的研究。事實上,我想得越多,就越擔心像「家」一樣舒適的地方在這種時候可能會過於安逸。搬到一個新地方之所以吸引我,正是因為那裡不舒適。它會讓我感到不確定,甚至可能有些冒險,而我就需要這種感覺。

於是,在2009年,我決定再次前往西部,鄧嘉和我的大多數學生也跟隨我轉學。斯坦福大學成了我們新的學術家園,它的面積之大足以讓普林斯頓大學和加州理工學院相形見絀。由砂岩、拱門和腳踏車道構成的獨特建築風格非常引人注目,校園幾乎終年都沐浴在陽光下。在這一切的背後隱藏著一個歷史悠久、根基深厚的世界,雖然當時很少有人提及,但與我的工作息息相關,甚至連我自己都尚未完全領會。這個世界比機器學習更重要,比計算機視覺更宏大。這是一個幾乎被人遺忘的世界,曾經囊括了機器學習、計算機視覺以及眾多其他領域,它就是「人工智慧」。

作為斯坦福大學的新教授,我遇到了很多人,其中就有當時的大學教務長約翰·埃切門迪(johnetchemendy)。當時我已經認識了很多管理者,但我一眼就看出約翰與眾不同。他是一位哲學家和邏輯學家,在加入管理部門之前,已經擔任教授數十年,講授符號學、邏輯真理和語言哲學等課題。他極其聰明,似乎不經意間就能散發出智慧的光芒,同時也很友善,是個出色的傾聽者。當他隨口提到約翰·麥卡錫時,我的心跳漏了一拍——約翰·麥卡錫是人工智慧的奠基人之一,也是達特茅斯暑期專案的主要組織者,「人工智慧」一詞就是從這個專案而來。

他說:「你知道,約翰是我的一個朋友。」

我不確定哪個更離奇:是我的新教務長與這樣一位傳奇人物私交甚篤,還是他如此淡然地提及此事。無論是哪一個,我都覺得自己來對了地方。

2009年6月,imagenet的初始版本終於完成了,這在很大程度上得益於斯坦福大學提供的新研究資金。儘管我們一路上遇到了許多挑戰,但我們最終成功達成了目標:收集了1500萬張圖片,涵蓋了2.2萬個不同類別。這些圖片篩選自近10億張候選圖片,並由來自167個國家的4.8萬多名全球貢獻者進行了標註。imagenet不僅在規模和多樣性上達到了我們多年來夢寐以求的水平,還保持了一致的精確度:每張圖片都經過了手工標註,並在層次結構中進行了組織,經過了三重驗證。

從數量上看,我們已經實現了既定目標,建立起了當時人工智慧史上最大的人工編輯資料集。但在這些數字之外,最讓我感動的成就是我們所構建的真實世界本體。這個本體是人類從零開始策劃的,既包含視覺影像,又能傳達邏輯概念,其唯一的目的就是教導機器。

2009年的計算機視覺與模式識別大會在邁阿密舉行,我們不僅是參會者,也是演講者。邁阿密熱浪襲人、色彩絢麗,從我們踏出行李提取區的那一刻起,就發現這座城市果真名副其實——霓虹色泳裝、鋥亮的跑車、高樓大廈在綠樹藍天的背景下交相輝映,周圍的聲音充滿了節奏感。外部環境的活力反映了我們內心的急不可耐;在經歷了近三年的跌宕之後,我和鄧嘉都迫不及待地想向世界展示imagenet。

我們已經準備就緒。這個專案的孕育過程異常漫長,給了我們充足的時間來磨鍊我們討論專案的能力,我們急切地想把這項技能付諸實踐。長久以來,即使簡單提及我們的工作,也會引發極端化的聽眾反應,因此,無論聽眾的反應是好奇、困惑,還是牴觸,我們都早已習以為常。我們做了相應的準備,反覆練習如何慷慨激昂地為自己的目標辯護,並準備好了最佳回答來應對最常見的批評意見。雖然我們意識到自己可能已經在風口浪尖上,但我們還是想揮霍專案預算的最後一點兒錢,進一步自我宣傳。

「這是什麼?」當我把一個白色紙箱遞給鄧嘉時,他問道。

「開啟看看!」我說。

他撬開固定蓋板,往裡面看了看。「呃……是筆嗎?」

「是印有imagenet標誌的筆!我在網上定做的。」

「我的意思是,看著挺酷的,但這些筆是做什麼用的?」

「我們可以在會議上發放!所有的科技公司都是這麼做的。商品推介都是採用這種方式。我們需要人們記住我們。」

鄧嘉的表情不知為何比平時更加茫然。但我毫不氣餒。

作為一個過度勞累的書呆子團隊,我們拿出所有自信來到會場,然而氣氛從一開始就顯得怪異。我們遇到了第一個也是最嚴重的挫折:imagenet被降級為「海報展示」。所謂的「海報展示」是一個學術術語,意味著我們將不能按照預定的時間在演講廳內向聽眾展示我們的工作,只能在會場的指定區域裡擺放一幅印有專案摘要的大幅海報,希望能引起路人的興趣。當然,在計算機視覺與模式識別大會這樣的頂級盛會上,就連海報展示的機會也非常難得,我們能夠參與其中就已經很幸運了,但我們還是渴望有機會能夠充分展示我們的願景,而不僅僅是簡單介紹。經過這麼多年的努力,卻只有一個這麼潦草的環節,不禁讓人感覺高開低走,大失所望。

我們回答了一些常見問題,也進行了幾次愉快的交談,但最終的成果卻微乎其微。我們很快就明白了,無論imagenet的前景如何(是被當作豐富無比的資源受到歡迎,還是被當作愚蠢的專案棄之不用),在這個大會上都無法得到推動。但好的一面是,這些定製的筆似乎還挺受歡迎。

與此同時,當我重新適應了沒有imagenet挑戰的生活時,我多年來一直拒絕承認的疑慮比以往任何時候都更加真實。那些反對者是對的嗎?這一切真的是在浪費時間嗎?imagenet不僅僅是一個資料集,甚至也不僅僅是一個視覺類別的層次結構。它是一個假設、一個賭注,它受到我們自身生物學起源的啟發,即實現真正機器智慧的第一步,是沉浸在完整的視覺世界中。與我們自身進化過程中的混亂和複雜性相稱的體驗,可能會對我們的演算法產生類似的影響。這個賭注既可能被證明是對的,也可能被證明是錯的,對於這兩種可能性,我都做好了準備。無論是哪種結果,都會是一個學習的機會。然而,我萬萬沒想到,它被忽視了。

我錯過了什麼?