我看見的世界：李飛飛自傳 09 萬物以外是什麼

「西爾維奧在……呃，廚房裡有很多蒸汽……」

「你這也說不過去呀！」西爾維奧笑著，小聲跟我說。

「別傻笑了！」我一邊回擊，一邊把門開了個小縫，剛好能一個人溜出去。我努力表現得很自然，但從母親悵然的目光中，我知道我還是失敗了。

讀了沃爾夫的論文後，「要點」這個概念一直縈繞在我的腦海裡，讓我深受鼓舞，因此，在加州理工學院的大部分時間裡，我都在自行探索「要點」的本質。這方面的研究與電腦科學或人工智慧沒有明確的聯絡，但它直面了一個問題，即人類在看到現實世界時，究竟能感知到什麼。雖然我和彼得羅以及克里斯托夫都認為，這種細緻入微的感知對計算機視覺來說是個遙不可及的夢想，但我們堅信，只有更好地理解人類的行為，才能開啟追逐夢想的旅程，於是我們設計了方法進行相關探索。2007年，我們將研究成果發表在以神經科學為重點的《視覺雜誌》（journalofvision）上。

在實驗中，我們向22名實驗物件展示了一組照片，共90張，每張照片的曝光時間從500毫秒（半秒）到27毫秒（大約是電影膠片單幀可見時間的一半）不等。這些照片都是簡單的日常場景，但細節豐富，包含多個人物、多種事物和多項活動，有室內和室外，有自然環境，也有人工環境。實驗物件的任務是儘可能詳細地描述他們所看到的內容，準確來說是根據他們的記憶描述自己所看到的內容。

像所有的實驗一樣，這個實驗開始時也是賭博，其中一半的樂趣來自不知道會發現什麼的興奮（雖然可能一無所獲）。但努力最終得到了回報，我到現在都覺得我們收集到的反應非常了不起。例如，我們向實驗物件展示了一張維多利亞時期的住宅內部照片，持續500毫秒。一個實驗物件寫道：「19世紀的豪華客廳，裝飾華麗的單人座椅，牆上掛著一些肖像。」

在短短半秒時間裡，他們就看到了足夠多的資訊，能夠對場景進行簡單但基本完美的描述，對照片所代表的世紀、牆面裝飾的性質和單件傢俱的結構進行了合理的推斷。即使是在27毫秒的時間裡，真正的認知也仍然存在（27毫秒大約是1/40秒，短到實驗物件幾乎沒有機會進行深度細緻的觀察）：看不太清；大部分是黑暗的，有一些方形的物體，可能是傢俱。

「可能是傢俱」這幾個字透露了很多資訊。傢俱不是形狀，不是顏色，甚至不是某種深植於我們基因中的自然現象，而是人類主觀創造出來的現代物品。在如此短暫的時間內，就能記住一個如此複雜的概念，這多麼令人驚歎啊。

不管有沒有時間的限制，我都覺得這種能力太強大了。照片可能是靜止的，但我們善於提取凝固在照片中的運動狀態，從幅度很大的動作到幾乎無法察覺的微小動作，我們都能敏銳地觀察到。我們會自然而然地注意到身體、手臂和腿的角度，並立即感覺到它們從哪裡來，要到哪裡去，以及速度和力量、重量和平衡、動能和勢能。我們可以想象畫面捕捉到的瞬間所處的環境，以及可能產生的結果，比如滑板運動員從路邊一躍而起之後的一剎那，或是年輕夫婦交換婚禮誓言後的一生。

我們甚至可以從照片中推斷出意圖。我們可以從一個人的姿勢感受到緊張的情緒、一個人與另一個人的親密程度，甚至能從像眉毛的角度這樣簡單的事情中獲取大量資訊。這些資訊足以讓我們判斷出自己看到的是什麼人，他們之間的關係如何，以及他們的意圖是什麼。一個不耐煩的老闆在過度勞累的員工面前晃來晃去；富有同情心的家長幫助孩子解決問題；親密的朋友；完全陌生的人；喜愛或憤怒；工作或娛樂；安全或危險。

關於自己身上的這個能力，我的感知也越來越強烈。每天晚上，我下班回到家，關上房門，甚至還沒來得及放下包，就會做一件事。不算一種儀式，因為沒有什麼刻意的安排，卻在每天的同一時間以同樣的方式展開。這是任何病人家屬都熟知的時刻：我會先找到母親，無論她在家裡的哪個角落——廚房、客廳，也許是後院——只需看她一眼，我就知道自己是不是應該擔心，知道她這一天過得好不好。如果她狀態良好，我就可以深深撥出一口氣；如果不好，那就另當別論。

就是這麼簡單。這是我能做出的最重要的判斷，一切都迅速而自然，彷彿認知魔法在自動完成，即使對我這樣研究視覺的人來說，這一過程也幾乎是不可察覺的。有時候我回到家，媽媽正在水槽邊削土豆。爸爸繫著圍裙，正在往爐子上的炒鍋裡倒橄欖油，好像還有一碗準備下鍋的雞丁。兩個人看起來都很滿足，誰也沒有抬頭看我一眼，沒有困惑或擔憂的表情。謝天謝地，我可以舒口氣了。這將是個美好的夜晚，至少此時是這樣。

但也有一些時候並不美好。媽媽在沙發上，坐也不是，躺也不是，看起來很不舒服。她一手扶額，眉毛擰在一起。貓蜷縮在她身旁，她的另一隻手只是無力地搭在貓背上，並沒有在撫摸。

情況不妙。需要量一下血壓，測一下體溫和脈搏，然後可能要給醫生打個電話。

這種能力迅速而強大。在我的記憶中，我很少有意識地去列舉周圍的單個物體——一屋子的傢俱、我的父母、他們穿的衣服、廚房用具、未開封的包裹或信封、西爾維奧的咖啡機、家裡的貓等等。我們花了很多精力來教機器對物體進行分類，但分類所依靠的似乎不僅僅是視覺敏銳度。在這樣的時刻，發生了一些更深層級的事情：我不僅僅是看到了母親的本體，而且是在瞭解她的狀態，評估她的姿勢，揣摩她的態度，從她眉間的皺紋或靠在櫃檯上時身體的角度等無形的東西中，得出生死攸關的推論。

即使是最先進的演算法，也會立刻被人類這種能力所折服。我們能想象出的最膚淺的感知成就，就是可以識別物體。只要演算法的分類錯誤率稍有降低，我們便大肆慶祝，覺得取得了了不起的進展。與此同時，我們的大腦每時每刻都對世界充滿了無比流暢的感知，以至周圍環境的無限生機對我們來說幾乎就是無意識的存在。早在20世紀70年代，研究員兼數學家阿納托爾·霍爾特（anatolholt）就總結過在研究領域這種小成即滿的短視現象。他說，人工智慧這種技術，就算房間著火也會不管不顧，完美地走出下一步棋。即使是現在，這一論斷依然非常貼切。現代人工智慧的表現就像玩遊戲的天才，可以熟練應對孤立的任務，應對「錯誤率」等狹隘指標，卻無法注意到落在棋盤上的餘燼正在燃燒。

人類的感知力雖然有種種侷限，但與機器截然相反。我們從整體上看待世界，不僅能識別世界的內容，更可以進一步理解不同事物之間的關係、意義、過去和未來。這就是「要點」。我們不僅是見證者，更是故事講述者。是時候讓演算法也學習一下這種本領了。

「給你，讀讀這個。」我把自己發表在《視覺雜誌》上的論文列印出來，放到安德烈·卡爾帕西（andrejkarpathy）的桌子上。安德烈是一名二年級博士研究生，剛剛加入實驗室，前途無量。他出生於斯洛伐克，在加拿大長大，身材修長，語速飛快。他熱衷於解決複雜的問題，並具有將想法付諸實踐的技術天賦。和我實驗室裡的許多學生一樣，他具備工程師的膽識和韌勁，拆卸起電晶體收音機就像在白板上寫方程式一樣輕鬆自如。如果說愛因斯坦、玻爾和惠勒是宇宙夢想家，那麼像安德烈這樣的學生或許與愛迪生或萊特兄弟是同類。外界幾乎看不到這兩種人的區別，但在我們實驗室裡，夢想家和實幹家的區別無處不在，從每次交談中都能看出來。兩種風格截然相反，但又相輔相成，每一種風格都註定要挑戰對方、吸引對方，甚至輕微地激怒對方。但在嘗試新事物時（尤其是實驗室經常會嘗試難度很大的新事物），兩者的組合就會產生強大的力量。

「這是什麼？」他一邊問，一邊拿起來瀏覽摘要。

「我們的下一個挑戰。」

自此以後，和安德烈的會面便成了我的固定日程。我們的目標是設計一種新的演算法，不只是能簡單地標記任何出現在前景中的物體，更可以描述整個場景。即使按照我們實驗室設定的高標準，這種新演算法也感覺像是我們研究的未來，甚至可能是整個領域的未來。但是我的激情讓我成為極其嚴苛的批評者。

「好吧，安德烈，這看起來很不錯。」

「但是……？」他猶豫了一下，笑著說。他知道這句話後面跟的是什麼。

他工作站上的顯示屏似乎展現了我們的想法：只需輸入一張圖片，就能輸出一句圖片描述。

他的演算法很聰明，在某些方面甚至極其聰明；儘管如此，我知道我們還有更長的路要走。這只是解決方案的一個片段，而不是整體。「但是，我們還沒有實現目標。」

他無力地坐在座位上。

方法問題非常微妙。在擔任教授的這些年裡，我已經敏銳地注意到了與此相關的現象。學生們往往會瘋狂地專注於自己的模型是否有效，以至「模型如何運作」的問題被拋到了一邊，安德烈就是這種情況。不可否認，他的模型乍一看的確有效，但通過定期的交流，我對他的思路已經非常瞭解。雖然他的方法有理有據，提供的圖片說明也很有文采，但最終得出的模型只是某種圖片說明匹配系統。

簡單來說，他的計算機螢幕上顯示的描述似乎過多來自某種形式的訓練資料，就好像他的演算法是在某種精心設計的資料庫中搜尋合適的描述一樣。我們的最終目標是讓演算法可以完全從頭開始生成圖片說明，而在我看來，他的模型無法實現這個目標。我確信他的模型在實踐中無法泛化：儘管在測試時表現良好，但它會被訓練集之外的圖片所迷惑，導致圖片說明出現描述錯誤或語法錯誤，或二者兼有。但真正的問題在於科學性。模型提供輸出圖片說明的方式是通過檢索，這並不屬於真正的創作。

安德烈嘆了口氣，充分認識到我給他增加了多麼大的工作量。他顯然很氣惱，但我知道他能認識到，這道鴻溝是值得跨越的。

「好吧，讓我重新思考一下。」他說，「我明白了，圖片說明需要逐字逐句地書寫。這就產生了很多問題，比如我們怎樣才能遵循影像的視覺特徵，寫出語法正確的內容，但是……我會想辦法的。」

我笑了笑。他沒有掩飾自己的沮喪，但他的思路是對的。作為一名科學家，我拒絕接受任何折中方案，他很清楚這一點。至於他如何實現，誰也說不準，但我知道，他骨子裡和我一樣不屈不撓。我相信他會成功的。

語言文字和視覺影像是兩個完全不同的領域。影像的基本單位是「畫素」，這個術語最初是「影像元素」的縮寫，現在已經很常用。畫素是一個幾乎無法察覺的點，捕捉了場景中單個小點的顏色。要描繪出有意義的畫面，可能需要數百甚至數千個畫素，或者更多。我們口袋裡的手機可以捕捉到由數千萬個畫素點組成的細節豐富的影像。但是，在單獨評估影像時，畫素本身基本上不能提供任何資訊。無論是我們大腦中的灰質還是機器中的矽，視覺演算法的工作就是將這些畫素組合成越來越大的二維影像區域，然後以某種方式掃描其中與現實世界的三維特徵相對應的模式：空間、體積、表面、紋理等等。

相比之下，英語等語言的基本單位是單詞，至少在日常口語和書寫中是如此。與畫素不同的是，單詞通常表達獨特的含義，獨立存在時同樣可以表意。單詞的範圍雖然很大，但數量是有限的。儘管如此，當我們把單片語合在一起之後，它們的含義就會受到影響，甚至完全改變，比如「rockbottom」（最低點）、「rockfragment」（岩石碎片）和「rockmusic」（搖滾樂），這幾對單詞都含有rock一詞，意思卻完全不同。當更多的單詞串聯起來構成更長的句子時，這種現象就會變得更加複雜，更不用說段落、文章和書籍了。總之，單詞表達思想的組合潛力是無窮無盡的。

雖然新時代早期的頭條新聞主要是計算機視覺的突破，但在同一時期，自然語言處理技術也取得了豐碩成果。其中一顆早期的明珠就是遞迴神經網路（recurrentneuralnetwork，rnn）。遞迴神經網路是一組專門為處理線性單詞序列而設計的演算法，能夠快速推斷文本的基本屬性，就像alexnet這類卷積神經網路處理影像的方式一樣。和卷積神經網路一樣，遞迴神經網路也已經存在了幾十年，但直到現在，人們才意識到它們的真正威力。

然而，比任何一個領域的進展都更具吸引力的，或許是人工智慧的眾多子領域之間開始出現交叉融合。不斷壯大的神經網路家族為視覺、語言、語音和其他形式的感知提供了一個共同的演算法框架，激勵著像我們這樣的實驗室去模糊它們之間的界限，以實現更綜合、更像人類的能力。

「我想我有辦法了。」安德烈隔著我辦公室的門說。距離我們上次談話已經過去了幾天，這次他顯得沒那麼沮喪了。我甚至看得出他有了好點子。「想象一下，把卷積神經網路和遞迴神經網路進行配對，」他一邊說一邊進屋坐到沙發上，「一個負責對視覺資訊進行編碼，同時將它跟單詞配對，另一個負責生成語言。然後我們以成對出現的影像和人類文字描述為基礎，來訓練我們的模型。」

現在總算有些眉目了，我邊琢磨邊點頭。

「繼續。」我好奇他還有什麼想法，「然後呢？」

「肯定還有一些未知的東西需要解決，但我認為遞迴神經網路會根據語庫中已有的單詞，有條件地生成圖片描述中的每個新單詞。這樣，我們在描述影像內容的同時，也能遵循從訓練資料中推斷出的語法模式。至少從理論上來講，結果應該是一個完全新穎的描述，或多或少是使用自然語言來呈現的。」

我很難不被這個想法打動。哪怕這招兒只有一半管用，他也能從我給他留下的困境中脫身。我迫不及待地想知道接下來會發生什麼。

我們的谷歌街景汽車專案已經完成，收集到的資料深度極為驚人。我們的分類器處理了來自200多個城市的5000多萬張圖片，覆蓋了3000多個郵政編碼和近4萬個選區。總的來說，演算法識別了2200多萬輛汽車，幾乎佔全美汽車總量的10%。從統計學上看，我們的觀察結果具有非凡的意義，其中一些證實了人們的刻板印象，特別有意思。比如我們對城市轎車和皮卡比例的研究發現：當轎車比例較高時，這個城市88%的人可能投票給民主黨；當皮卡車比例較高時，82%的人可能投票給共和黨。但這僅僅是個開始。

例如，在我們的研究結果中，車主的種族和他們喜歡的品牌之間具有極強的相關性，幾乎與美國社群調查關於同一社群種族構成的資料完全一致。同樣，根據汽車資料，也可以對某個地區的平均教育水平和收入水平做出準確的預測。我們的模型一次又一次地生成了整個城市的彩色編碼地圖，追蹤從一端到另一端的社會經濟和政治指標的波動，所有資料都與人口調查局使用傳統方法收集的資料驚人地相似。而所有這些，僅僅通過觀察街道上的汽車就能實現。

不過，我們真正的發現，是我們所展示的流程有潛力發展成為一種速度快、可擴充套件、成本相對較低的人工調查替代方法（僅在美國，每年的人工調查費用就超過2.5億美元）。這是我們實驗室歷史上規模最大、目標最高的專案之一，我們的論文發表在《美國國家科學院院刊》（proceedingsofthenationalacademyofsciences，pnas）上，蒂姆尼特作為第一作者，因其出色的貢獻而實至名歸。從技術層面來說，我為這項工作感到驕傲，但最讓我興奮的是，這項工作揭示了人工智慧可以用全新的方式向我們展示世界。

我手裡拿著錢包、手機，還端著半杯星巴克咖啡，側身用肩膀推開了實驗室的門。這是個典型的上午，我的日程安排得滿滿當當，但有些心神恍惚，正匆匆忙忙地從一個會議趕往下一個會議，邊趕路邊熟悉議程。當我經過安德烈的辦公室時，他向我招了招手。

「看看這個。」他說著，朝自己的工作站點了點頭。這次他臉上的表情明顯自信多了。

我匆匆走了進去，興奮地想看看最新的訊息，幾乎忘了自己要去哪裡。螢幕上是一張少年和滑板的照片，兩者都在半空中，背景是藍天和遠處的灌木叢。在影像下方的一個小命令列視窗中，顯示著一句話：

一個滑板上的人。

我還沒反應過來，就已經笑了出來。安德烈讓這個瞬間停留了一秒鐘，然後按下按鍵。另一張圖片出現了，圖片上是一個雜亂的建築工地，兩個穿著橙色背心的工人正在澆灌水泥。一兩秒後，出現了另一句話：

建築工人在路邊施工。

他又按了一次鍵。另一張圖片出現，又是一個新的圖片說明。然後接連不斷地出現。場景的數量和多樣性清楚地表明，這些句子並不是從某個訓練語料庫中提取出來的，而是模型自己寫的。

安德烈也喜笑顏開。不過，和其他優秀的科學家一樣，自豪之餘，他也不忘告誡自己：「當然，還有一些問題需要解決，比如……」

他又點選了一下，一張新的圖片出現了，是一位遊客在西班牙鄉村風格的廣場上拍攝的，後來我才知道，這是特魯希略的市政廣場，這座城市以其豐富的文藝復興時期建築而聞名。我正沉浸在這幅畫面中，圖片說明出現了：

一名男子騎馬經過建築物旁邊的街道。

我們倆都被逗笑了——演算法描述得近乎完美，卻遺漏了關鍵的資訊：人和馬都是青銅做的雕塑。有趣的失誤還在繼續。在演算法看來，睡在沙發上的寵物海豹是一隻貓，一個拿著牙刷玩耍的嬰兒是一個拿著棒球棒的小男孩。演算法完美描述了在草原上吃草的斑馬，只是完全沒有注意到它們身後那道驚豔的彩虹。演算法的錯誤往往帶有一種孩子般的笨拙，而這種笨拙卻出奇地可愛，溫馨地提示著我們：我們還有很多東西要學，我們的機器也一樣。不過，安德烈的成就（雖有瑕疵）才是最令人難忘的。

「我們得把這個寫出來發表。」我說。

「真的嗎？」他問，「現在就開始寫？」

「是的，當然。」我急切地回答，急切的程度連我自己都感到吃驚。不知何故，我突然很焦慮。也許是媒體對我們領域的狂熱影響到了我，也許是作為實驗室主任的自豪感湧上心頭。不管是什麼原因，焦慮感並未消退。

「越快越好。」我說。

「你是說和一臺機器約會嗎？就像電影《她》一樣？」

學生的話引起了全場的笑聲。斯派克·瓊斯（spikejonze）的電影《她》講述一個男人愛上了人工智慧伴侶的故事，大多數人都對這部電影記憶猶新。

「為什麼不行呢？」另一位學生回答道，「如果機器有足夠的智慧，能夠像我們人類一樣進行真正的對話，就像我們現在的對話方式一樣，那麼誰又能說人和機器之間不會有戀愛的可能性呢？」

「我不知道……對我來說，這聽起來有些荒誕。」

「但原則上沒有任何障礙，對吧？我們至少能在這一點上達成一致吧？」

那是寒假前的最後一個週五，我正在參加我最喜歡的活動：斯坦福大學人工智慧實驗室師生每月兩次的閉門聚會「人工智慧沙龍」，討論人工智慧領域的熱門話題。自首次會議以來，我們已經探討了各種各樣的話題，有電影和電視中對人工智慧的描述等文化問題，也有哲學辯論，比如範疇和符號結構究竟是語言的基本事實，還是如那次尖銳的討論題目所示，屬於「語言學家的幻想」。

今天我們討論的是《超級智慧》，這本書是牛津大學哲學家尼克·博斯特羅姆（nickbostrom）探索人工智慧未來的一本頗具爭議性的鉅著。比爾·蓋茨和埃隆·馬斯克等人都在推特上對這本書大加讚賞，同時也表達了對其影響的擔憂；在他們的推薦下，這本書在大眾市場獲得了意想不到的成功，重新引發了人們對科幻小說中人類與機器之間即將決一勝負的討論。我們的談話不拘一格，涉及機器人殺手、演算法中主觀意識的潛力，最後還談到了與電腦相愛的想法。不過，就連那天下午最刺激的漫無邊際的討論，也承載著我在往年不曾預料到的分量。當未來突然如此迅速地來臨時，我們很難不去談論未來。

2012年imagenet挑戰賽的衝擊波仍在迴盪。對像我們這樣痴迷於計算機視覺的人來說，這是一個分水嶺，全世界都開始認識到，比賽結果不僅僅是對圖片理解的轉折點，更是對一切事物理解的轉折點。在這個曾經鮮為人知的競賽中，alexnet展示了大規模資料集、高速圖形處理器和深度分層神經網路三者近乎神奇的組合。這種組合是一幅藍圖，其應用範圍註定要遠遠超出計算機視覺領域。世界各地的實驗室都在構建更加豐富的分層網路，與此相對應的，一個新的名字正在流行——這不僅僅是機器學習的時代，更是深度學習的時代。

一種全新的範式正在誕生，一如20世紀初物理學的崛起。這讓我回想起十幾歲時那些激發我想象力的故事，我幻想著，在那些激情燃燒的歲月裡，物理學家們過著怎樣的人生。這些早期先驅一定感受到了無限的神秘和深深的敬畏，量子世界的奧秘和宇宙相對論的威嚴喚醒了他們，他們對現實的看法發生了翻天覆地的變化，這種變化來得如此徹底、如此突然，讓人很難不心生羨慕。他們在正確的時間出生在正確的地點，接受了歷史最令人驚歎的禮物之一。我們不禁要問，神經網路這一現代化身是否就是我們這一代人的使命和召喚？

即便如此，我們也有理由承認，未來不會只有詩意。與人工智慧相關的學術會議正在發生轉變，這是更令人不安的變化預兆之一。幾十年來，這些活動都很低調，只有教授、研究人員和學生參加，倖免於媒體的關注，同時經費也相當緊張。企業贊助商很少，通常僅限於施普林格（springer）這樣的學術出版商，而且只能在展廳角落裡擺幾張長板凳。但在alexnet釋出之後的幾年裡，來自《財富》世界500強的全球頂尖企業把學術活動變成了一場場盛宴，每一次新的聚會都更像是拉斯維加斯大道上的行業博覽會。在短短幾年內，沐浴在彩色燈光下的展臺變得司空見慣，這些展臺規模宏大，上面的企業標誌十分醒目。谷歌和微軟等公司還為正在選擇職業的研究生舉辦了奢華的聚會。

隨著更多需求的湧現，一種飢餓感籠罩了整個領域。更多的層級使神經網路更深入、更強大。更多的硬體可以加快訓練過程，實現更大規模的網路部署。當然，還有更多的資料：更多的影像，更多的影片，更多的音訊，更多的文本以及其他任何可能訓練網路理解的內容。更多的一切。

想到新組織的資料可能帶來的能力，除了興奮，我也不禁感到憂慮。在我自己的實驗室裡，我們已經看到，資料中隱藏的東西遠超出我們意識到的範圍。資料從來都不僅僅是影像、音訊或文本。只有通過資料，模型才能對世界形成表徵，而更大的資料意味著更強大、更細緻的表徵；意味著關係、聯絡和想法；意味著真理與謬誤；意味著洞察和偏見；意味著新的理解，同時也伴隨著新的陷阱。深度學習革命已經到來，而我們還沒有做好準備。

與此同時，我們實驗室的研究議程也顯示出了自身的貪婪。無論我們取得了多大的成果，每一篇新發表的論文似乎都會孕育出10個新的後續想法，無論是博士後還是一年級的研究生，總有人願意接手，繼續深入研究。這正是我喜歡的工作方式，儘管我常常感到力不從心、不堪重負。

事實上，我在想，以北極星來比喻理想，其真正的價值不僅僅在於北極星可以指引方向，更在於無論怎樣努力，到達北極星的距離永遠是無限的。我們可以為之苦苦追求，可以為之痴迷一生，卻永遠無法抵達。北極星象徵著科學家最獨特的品質：充滿永不停歇、永無止境的好奇心，這份好奇心跟滿足感永遠同極相斥。夜空中的一顆星，遠方的海市蜃樓，沒有盡頭的道路。我意識到，這就是人工智慧對我的影響。imagenet是一個轉折點，當然值得慶祝，但它並不是旅程的終點。如果說有什麼特別的意義，那麼轉折點只是一段更偉大旅程的開始。除此之外，我現在可以肯定，等待探索的事物還有太多太多，一個人窮盡職業生涯，甚至一生，都無法抵達終點。

隨著我們圖片說明生成技術日臻成熟完善，成果釋出指日可待。在接下來的幾周裡，我和安德烈不斷改進方法、記錄成果。我們的策略帶來了我期望的結果：雖然句子仍然簡單扼要，但用詞準確、表述相對自然。用傑里米·沃爾夫的話說，這確實是一種能夠捕捉所見「要點」的演算法。

是時候和全世界分享了。這意味著我們已經吸引了學術界的關注，我們的研究成果已被幾周後召開的2014年神經資訊處理系統大會（neuralinformationprocessingsystemsconference，neurips）採納。與此同時，我受邀在灣區另一邊阿拉梅達的ibm研討會上發表演講，忍不住提前透露了成果。

分享尚未發表的工作成果並不符合傳統做法。但隨後的一通電話證明我的選擇是正確的。電話來自《紐約時報》的技術記者約翰·馬爾科夫（johnmarkoff），當時我還坐在回斯坦福大學的優步車後座上。我一直對約翰很有好感，因為他是在imagenet早期就意識到其重要性的少數幾個媒體人之一，幾年前，他還在《紐約時報》上報道過imagenet。不過，這次他沒有事先跟我溝通，就直接打來電話，這個舉動很不尋常。

「喂，約翰，你好啊。」

「你好，你好，猜猜今天上午ibm的聽眾裡有誰？」

我沒想到會有記者出席，感到事情有些蹊蹺。

「你的這個能生成圖片說明的演算法，你說它還沒有發表，是嗎？」

「沒錯。但我們會在12月的神經資訊處理系統大會上正式展示。」

「啊，那真是太好了。」約翰靦腆地說，然後切入正題，「是這樣的，我想讓你知道，我手裡有一些關於另一個研究小組的材料。當然是保密的，我不能告訴你是誰，但他們聲稱他們已經建立了首個可以——」他尷尬地笑了笑，「生成描述影像的句子的演算法。」

什麼？

這說不通啊。我和安德烈都不知道還有其他人在研究這個問題。但約翰說得沒錯。幾天後，《紐約時報》就刊登了他的文章，題為《研究人員宣佈影像識別軟體取得進展》。他寫道：「兩組科學家獨立工作，分別創造出了新型人工智慧軟體，能夠以前所未有的準確性，識別和描述照片和影片內容。」

學術競爭並不罕見，而研究人員之間的競爭一直是推動科研創新的關鍵因素。不過，奇怪的是，我對此完全始料未及。研究領域一直以來都以開放著稱，有時甚至達到了極致；除了率先發現某樣東西的炫耀權，我們的工作通常不被視為智慧財產權，更不用說像商業秘密那樣的保密內容了。我們的工作是要與全世界分享的，包括我們最強勁的競爭對手，而且在成果發表之前，我們通常至少能知道誰在研究什麼。我帶著滿腹狐疑繼續讀了下去，然後一切都變得清晰起來。

多年來，我和同事們一直對媒體誇大人工智慧進步的報道嗤之以鼻。但這一次，報紙上的一篇文章讓我看到了世界變化之快。我們的對手不是其他大學的某個神秘研究團隊，而是谷歌。