我看見的世界：李飛飛自傳 08 實驗驗證

「鮑勃一直都在我心裡。」我惆悵地笑了一下，「不過不僅僅是他。」

「imagenet？」

「是啊，我也不知道，整個比賽的想法……感覺很順理成章，結果才做了兩年，參賽的人數就開始下降了。天啊，難道我一直是錯的嗎？難道答案就這麼簡單？我的意思是，‘假設’就是這樣的，對吧？有時候，‘假設’就是錯誤的意思。」

「當然，有時候確實是這樣。」

我抬起頭來看著他。

「但這次不是這樣。你知道嗎，從你第一次提到這個想法，我從來沒有勸你放棄過，這是有原因的。不僅僅因為你是我的妻子，還因為我也相信imagenet！也許這個資料集太超前了，也許吉滕德拉是對的，你的跨越幅度太大了。但這並不意味著imagenet是錯的。」

我笑了。他並沒有解決我的問題，但他的話鼓勵了我。

「還有，」他接著說，「我認為潮流正在轉向。我們實驗室研究的視覺問題跟你們的完全不一樣，但你知道大家開始談論什麼了嗎？更大的資料集、更多種類、更加廣闊的世界圖景。這就是假設的另一個特點——有時候，假設需要一些時間才能贏得所有人的認同。」

即使是西爾維奧最溫暖的安慰也充滿了理性，他很擅長幫我振奮精神。不過，沒過多久，我就不再需要他的鼓勵了。科學總是以一種耐人尋味的方式打破預期，即便那些與之最接近的人也始料未及。

2012年8月，讓我夜不能寐的事情終於不再是imagenet了——我們的孩子出生了，我的生活主題變成了哺乳、換尿布和永遠不夠的斷斷續續的睡眠。

這一年，imagenet挑戰賽的結果將在義大利佛羅倫薩宣佈，因為孩子的原因，我本不打算親自去參加，但有一天，鄧嘉深夜打來電話。這個時間點很不尋常，我的第一反應是出了什麼事。

「喂？」

聽得出他很激動，但感覺不像是痛苦，而更像是興奮，準確地說，是迷茫而興奮。因為鄧嘉一向淡定，所以他的語氣讓我格外留意。

「是這樣的……我們一直在評估今年的參賽作品，其中的一個演算法是……我的意思是……」

他遲疑了一下。

「怎麼了？是什麼？」我問道。

「好吧。獲勝的團隊使用了非正統的演算法，是一種神經網路演算法，你敢相信嗎？」

我的耳朵豎得更直了。如果說剛才我的注意力還沒有完全集中在他的身上，那麼現在我肯定百分之百地在聽他說話了。

「感覺像是……老古董。」

我不由得笑了起來。一個21世紀的學生用「老古董」這個詞來形容幾十年前的工作，足以證明我們的領域是多麼年輕（可能也證明我正在變老——我選擇無視這種可能性）。但他說得沒錯。神經網路是由生物學啟發、層次分明的相互連線的決策單元陣列。由於計算機視覺領域的迅速發展，到了21世紀初，我們中的大多數人已經把神經網路看成是塵封已久的藝術品，包裹在玻璃罩中，四周用天鵝絨繩索保護，閒人勿近。

「真的嗎？是神經網路演算法？」

「是的，但還不止這些。飛飛，你不會相信演算法的表現有多好。」

飛機窗外一片漆黑。雖然飛機還在跑道上，但還是什麼都看不見。坐在中間座位的我，能看到的只有前排的座椅。我告訴自己：「一會兒就能到佛羅倫薩了。」但我心裡清楚，這只是個幻想。因為臨時決定參加歐洲計算機視覺大會，我不得不放下一切，家庭生活陷入了混亂，但鄧嘉的訊息讓我別無選擇。不得不承認，當嬰兒急需照顧時，和父母同住還真是益處多多。

訂票的時候，我回想起我和西爾維奧度蜜月時，從舊金山國際機場到佛羅倫薩機場並沒有直飛航班，於是我費了一些功夫找到了能讓我最快時間回家、回到孩子身邊的航線。雖然很不情願，但我最後還是選擇了一趟20小時的航班，飛機空間狹小，肯定也睡不好，唯一的中途停留休息就是轉機，可能在巴黎、蘇黎世或其他一些我在迷迷糊糊狀態下無法辨認的標誌性城市。但現在已經無法回頭了。飛機開始在跑道上緩緩滑行，引擎開始轟鳴。擴音系統裡傳出廣播：抬起小桌板，繫好安全帶。我想睡一會兒，但思緒卻翻滾個不停。

我一直在思考這次的獲勝演算法。它的識別準確率高達85%，比上一年的冠軍高出10個百分點，創造了計算機視覺領域的世界紀錄。可以用一個資料來說明這個準確率的意義：我所看到的研究表明，人類的平均識別準確率約為97%，而這還是對簡單得多的二元選擇而言（比如判斷一張照片上是否有動物）。相比之下，演算法需要篩選上千個選項才能找到正確答案。因此，雖然這個演算法還沒有達到人類的水平，但已經比其他任何演算法都更加接近，而且差距已經小到驚人。

飛機廣播「嘟」了一聲，然後傳來機長的聲音：我們已進入巡航高度。

這個參賽演算法最令人驚訝的地方，也許在於它提高準確率的具體方法。儘管發展了數十年的支援向量機等現代演算法已經引起廣泛興趣，並曾在前兩年的比賽中獲勝，但這次獲勝演算法的研發團隊卻選擇了讓神經網路重出江湖，並在比賽中大顯身手，把第二名遠遠甩在身後。冠軍演算法名為alexnet，是向這項技術和專案的主要作者、多倫多大學研究員亞歷克斯·克里熱夫斯基（alexkrizhevsky）致敬。

飛機遇到氣流，顛簸了一下。

準確率竟然在短短一年內大幅提高了10個百分點？而且是通過神經網路實現的？飛機從一個時區穿越到另一個時區，我的大腦運轉不停。這就像是聽說一輛本田思域以每小時160千米的速度差打破了陸地速度的紀錄。根本不可思議。進步不應該是這樣的。

還是說，進步就是這樣的？我想到了鄧嘉在論文中闡述的內容，包括在使用imagenet進行演算法訓練時的一些發現。在小型資料集上執行良好的技術，在大型資料集上訓練時卻突然表現不佳，反之亦然。有沒有可能，神經網路一直以來都更適合理解imagenet這種更大、更密集的可能性空間？有沒有可能，神經網路一直都能同時應對類別總數的大幅增加和類別間差異的急劇縮小，而它最先進的競爭對手卻做不到？我急切地想找到更多線索，於是開啟筆記型電腦，調出了alexnet團隊在參賽演算法中附帶的幻燈片，仔細研究他們所做的設計選擇。

alexnet是卷積神經網路（convolutionalneuralnetwork，cnn）的一個例項。卷積神經網路的叫法源於圖形卷積過程。在這個過程中，一系列濾波器在影像上掃過，尋找與網路所識別事物相對應的特徵。這是一種獨特的有機設計，靈感來自休伯爾和威塞爾對哺乳動物視覺系統的觀察，即視覺處理在多個層次上進行。就像在自然界中一樣，卷積神經網路的每一層都會逐漸整合更多的細節資訊，從而形成越來越高層次的感知，最終將真實世界的物體完整地呈現在我們的視野中。

這樣就形成了一種類似視網膜的演算法，凝視著周圍的環境。就像真正的眼睛一樣，演算法的最外層把成千上萬個感受野應用於圖片的畫素，每個感受野都經過特定調整，能夠識別出獨特的微小圖案，並在遇到這種圖案時被啟用，比如以一定角度傾斜的對角線邊緣、兩種色調之間的模糊混合、條紋圖案或明暗交替等等。在這種感知水平上，濾波器可以對任何事物做出反應，比如小狗皮毛的圖案、廚房櫃檯的邊緣，或者陽光下玫瑰花瓣輪廓上的閃光。事實上，alexnet能夠捕捉到所有這些特徵，甚至更多，這不僅是因為它接受了imagenet的訓練，更重要的是，這種演算法忠實於生物視覺的進化本質。研究團隊沒有預先決定網路應該尋找哪些特徵，而是讓數十萬個神經元在沒有人工干預的情況下，完全依靠訓練資料逐漸學習到自己的敏感度。alexnet就像生物智慧一樣，也是自身所處環境的自然產物。

接下來，來自成千上萬個感受野的訊號會深入神經網路，匯聚融合成更加豐富、清晰的提示資訊。每個新的感知層都在比上一層更加複雜的感知水平上執行，當感知到熟悉的事物時（也就是感知到演算法此前已經被訓練識別的東西），就會做出反應，就像生物神經元的生化反應被啟用一樣。微小的圖案越來越大。這些圖案進一步像拼圖一樣連線起來，形成越來越容易辨認的片段——老虎的條紋、木頭的紋理、映在地上的影子。

最終，經過各層過濾後，僅剩下少數幾個訊號被融合成識別物件的詳細影像，進入網路的最後階段：識別階段。摩托車、豹子、算盤、母雞、電視機，或是其他上千種選擇中的任何一個。所有這些都來自同一種演算法，其精確度越來越接近人類水平。

當然，這些並不是什麼新的創意。自從貝爾實驗室成功將卷積神經網路應用於手寫郵編，楊立昆多年來一直對卷積神經網路保持著驚人的忠誠。在alexnet誕生時，他已經花了20年時間堅持不懈地完善演算法、發表研究成果，但一直沒有必要的資源來充分實現這些成果。現在，幾乎在一夜之間，這種常被視為誤入歧途的執著似乎變得極具先見之明。楊立昆把自己的卷積神經網路演算法巧妙地命名為lenet（呼應他的英文名yannlecun），其指導理念在alexnet中熠熠生輝，宛如重生般煥發生機。

這種聯絡讓alexnet背後的三人團隊備受矚目。他們都是多倫多大學的研究人員，負責人是與專案同名的亞歷克斯·克里熱夫斯基，以及他的合作伙伴伊利亞·蘇茨克維（ilyasutskever）。這兩個聰明的年輕人資歷尚淺，仍在建立自己的聲譽。然而，第三個名字立刻引起了我的注意：傑弗裡·辛頓。就是這位辛頓，在20世紀80年代中期開發了反向傳播技術，成為早期機器學習的先驅。反向傳播的突破性方法首次實現了對大型神經網路的可靠訓練。就是這位辛頓，曾經指導過彼時還是他實驗室學生的楊立昆。和他的學生一樣，辛頓拒絕放棄對神經網路的研究，即使這讓他在同事中顯得形單影隻。看來，alexnet絕不僅僅是一個參賽演算法。這是一個歷經四分之一個世紀的正名時刻。

隨著我對演算法架構研究的不斷深入，它根源的意義變得更加清晰。雖然相隔20多年，但alexnet和lenet的主要區別似乎微乎其微，兩者都運用了傳統的神經網路範式。但有一個關鍵的區別是顯而易見的：alexnet這個新的演化版要龐大得多。

與lenet相比，alexnet可以處理大約10倍規模的影像，通過一個大小約為其兩倍的卷積核（可以理解為神經網路的「焦點」）來掃描影像。在此基礎上，alexnet通過一個更深的網路對識別的細節進行過濾，這個網路比lenet多出幾層，因此能夠更全面地處理所獲得的資訊，並做出更復雜的推斷。最後，lenet的設計目標是將分析結果轉化為10種可能結果中的一種，對應於它要識別的10個手寫數字，而alexnet可以識別出1000個物體類別，也就是比賽中選擇使用的imagenet子集中所包含的類別總數。

但所有這些都只是程度上的差異，而非本質上的差異；從理論層面看，兩種演算法幾乎沒有什麼區別。然而，alexnet的表現卻創下了前所未有的輝煌。

這是如何實現的呢？

部分原因肯定是演算法執行所需的硬體。在很長一段時間裡，神經網路的訓練難度很大，硬體的明顯限制是致命的。即使是利用過去幾十年中規模小得多的網路來訓練演算法，從操作層面看，也很難實現。事實上，用世界上最大的影像集合來訓練類似alexnet這樣的網路似乎是難以想象的。但技術已經取得了長足的進步，尤其是出現了針對特定應用進行了最佳化的計算機硬體，價格低廉但效能出色，讓大規模資料集訓練成為可能。有意思的是，一切都要歸功於電子遊戲的流行。

這就引出了另一個命運轉折點：從功能上看，神經網路所傾向的數字運算方式類似於影片遊戲的圖形渲染方式。自20世紀90年代以來，價值數十億美元的電子遊戲產業一直推動著定製硬體的進步和商業化，助推了輝達等超級品牌的崛起。到2012年，相關硬體——一種被稱為「圖形處理器」（graphicsprocessingunit，gpu）的專用處理器——已經以優惠的價格成為消費產品。對辛頓的實驗室來說，這意味著實現alexnet所需的硬體不再需要政府撥款和施工許可，而是可以在百思買電器大賣場的貨架上買到。

然而，「可行」不一定意味著「方便」。即使有如此強大的硬體，利用imagenet來訓練alexnet也需要使用多個處理器，每天24小時執行整整一週的時間。所以，在2012年年初的某一週，當世界各地數以百萬計的圖形處理器忙於渲染抖動的機槍、成群結隊的殭屍和彈片飛濺的爆炸時，有兩臺圖形處理器卻正在多倫多的某個地方將一種新型神經網路從理論變為現實。

儘管演算法效能取得了顯著進步，但在嚴格意義上講，並沒有什麼新穎的東西。進步的作用只是讓現有程式能夠在更加實際的時間內完成。如果要說2012年的世界與lenet時代有什麼真正的不同，那一定是用於訓練網路的資料之充裕。畢竟，在1989年，數字影像還處於起步階段，大規模的影像庫也非常罕見。在那個時候，組織一套用於神經網路訓練的資料集——不僅僅是數字影像集合，更是一個針對特定應用、每個影像都由人工精確標註的海量集合——似乎完全是無稽之談。

當然也有例外情況，那就是用來訓練lenet讀取郵編的掃描影像。在當年，即使打造一套手寫數字影像的訓練集，也是勉勉強強才能完成的工作。郵編圖片訓練集和現代圖片訓練集的對比情況引人深思。與數百萬畫素的全綵照片不同，掃描的數字圖片尺寸很小，顏色單一，佔用的記憶體也相對較少。而且，只需數千個示例（而不是自然世界所需的數以億計的示例），就足以涵蓋其特異性所需的多樣性。因為當時只能找到手寫郵編的圖片訓練集，所以，在20多年的時間裡，卷積神經網路演算法的唯一成就是識別手寫郵編也就不足為奇了。從這個角度來看，資料似乎有種為系統注入活力的能力。

事實上，在imagenet的幫助下，alexnet煥發生機，它貪婪地吸收著imagenet的內容，在imagenet規模和多樣性的土壤中生根發芽，茁壯成長。一直以來，神經網路並不需要更花哨的數學公式和更奇特的抽象概念。我們期待神經網路能夠理解世界，而它們只是在等待我們提供更加清晰的圖景，等待一些真正有學習價值的東西。大資料訓練了lenet去理解複雜的人類筆跡，現在它也在訓練alexnet去理解萬物。

後來我才知道，在2012年之前的幾年裡，辛頓重拾激情，想要證明神經網路的可行性。2011年，他認為自己比以往任何時候都更接近轉折點，於是開始以一種既對抗又合作的方式與同事溝通，他的表達方式聽起來更像是提出挑戰，而不是提出問題。他跟同行探討下一步行動計劃，其中一個同行就是吉滕德拉。雖然他們兩人早有交情，但吉滕德拉一直對辛頓的專案持懷疑態度。

「我要怎麼做，才能讓你相信神經網路是未來的趨勢？」辛頓問道。

「你真的想打動我嗎，傑弗裡？那就讓我看看它們能不能處理一些真正的任務。」

「比如？」

「比如物體識別，真實世界中的物體識別。」無論吉滕德拉對imagenet有什麼看法，他的確相信視覺分類的力量，這一點我在加州理工學院時就瞭解到了，「你參加過pascalvoc嗎？」

「參加了啊。但沒什麼用，他們的資料集太小了，例子不夠，所以我們給神經網路展示新圖片的時候，泛化效果並不好。」

「那你就需要更大的資料集。你關注過飛飛的實驗室嗎？等你準備好迎接真正挑戰的時候，可以看看她組織的比賽。」

不管吉滕德拉是真的對我的專案改變了看法，還是隻是想打老朋友的臉（這兩種情況似乎都有可能），辛頓都認真地聽取了建議。

每一個翻騰的思緒似乎瞬間匯聚，讓我從迷迷糊糊的旅行中清醒過來，我突然想到了一件事：神經網路與imagenet對世界的呈現是天然的契合。回顧過去，楊立昆的網路與筆跡識別相得益彰。他的網路對筆跡進行分析，從最小的畫素簇到筆觸的紋理，再到完整的數字，在每個分析尺度上都發現了有意義的模式。這是從資料中自發產生的感知流暢性，自然而然地形成了意識的層次。休伯爾和威塞爾在貓的視覺皮質中看到了同樣的現象。而在加州大學伯克利分校的實驗室裡，我們看到了更深層次的理念。神經網路一直都能進行物體識別，但直到現在，它們才具備了實現目標所需的計算能力。

imagenet的資料廣泛而全面，覆蓋了世界上絕大多數物體。現在看來，alexnet和imagenet也屬於相互成就。簡而言之，這就是最大的不同——現在演算法可以探索的資料範圍大大增加了。一想到訓練完成後alexnet的層級中包含的內容，我就驚歎不已：形狀、邊緣、圖案、紋理，涵蓋我們多年來從網際網路上捕捉到的所有人物、動物和物體。現實世界中幽靈般的碎片，以恰到好處的方式組織起來，供演算法來檢視。

飛機抵達佛羅倫薩，機輪觸地，飛機輕輕地顛簸著。我仍然難以相信alexnet就是我們夢寐以求的進步。這個飛躍似乎太大了。但我越想越覺得它具備每一個偉大突破的特徵：瘋狂的外表包裹著一個有意義的想法。

第二天一早，訊息就傳開了。據傳，會上將宣佈一個具有歷史意義的事件。這些含糊不清的傳言激起了與會者的好奇心。當我到達時，研討會現場已經人滿為患，楊立昆本人不得不靠後牆站著，因為他稍微晚了幾分鐘，沒能找到座位。

從研討會開始的那一刻起，現場的氣氛就異常緊張，人群分成了三派。第一派是imagenet的少數支援者，包括我、亞歷克斯·伯格和辛頓實驗室的成員。第二派佔絕大多數，由中立但感興趣的觀察者組成。第三派雖然人數不多，但態度強硬，也最直言不諱。他們是那些從早期就反對imagenet理念的批評者，雖然我通常不理會他們的態度，但在會議現場很難忽視他們的存在。

更糟糕的是，我們並沒有形成統一戰線。辛頓無法親自參會，因為他長期患有背部疾病，幾乎不可能進行國際旅行，所以他派了亞歷克斯·克里熱夫斯基代他出席。亞歷克斯非常有才華，也是演算法的主要作者，所以可以代替辛頓。但就像許多傑出的人一樣，他的個人表現與他工作成果的高度並不相符——我不確定他是否完全理解這一點。他的表現笨拙而輕率（這在學術界並不罕見）。一個典型的例子是，我在研討會開始前多次給他發簡訊確認會面時間，但他完全沒有回應（但幸好，他按時到了現場）。由於聽眾的懷疑態度空前高漲，他只擺事實、不帶情感的演講更難贏得他們的認同。

提問環節一開始，現場的緊張氣氛就越來越濃。我們聽到了所有常見的抱怨：imagenet太大了，不實用；沒有必要包含這麼多類別；物體識別模型還太原始，不需要如此龐大的資料集；等等。事實上，alexnet幾乎是逐點證明了相反的觀點，但奇怪的是，觀眾卻不信服。同時，也出現了一些新的批評聲音，有些甚至非常離譜。一位與會者（來自頂尖大學的後起之秀）煞有介事地提出，描繪t恤的圖片類別多樣性不夠，因而無法可靠地訓練模型。對此我更多的是感到好笑。是認真的嗎？t恤圖片是致命弱點？會議現場的其他人也都一頭霧水。

但那些認真傾聽的人得到了回報。在27張幻燈片中，大多數只有黑白文字和圖表，卻以我們從未見過的清晰方式展示了神經網路的本質，極具啟示性。繼羅森布拉特的感知機、福島的新認知機和楊立昆的lenet之後，alexnet實現了計算機視覺領域的新跨越。這一步早就應該邁出，卻歷經了數十年的醞釀，現在終於橫空出世，利用大型資料集充分彰顯了潛力。

尤其值得注意的是alexnet的學習過程。

與所有神經網路一樣，alexnet的初始狀態是無形的、惰性的，就像虛空中的一塊掛毯。然後，學習過程就開始了：面對從imagenet庫中隨機選擇的圖片，神經網路的任務是從上千個標籤中選擇一個正確的標籤，對圖片進行標註。這個過程週而復始，不斷重複。一開始，標註幾乎是不可能完成的任務；alexnet的數千萬個神經元是隨機配置的，對世界甚至連一點兒模糊的理解都沒有，只會產生錯誤的結果。把一張蘑菇圖片標註為「瓶蓋」。錯誤。把一張拖車圖片標註為「電吉他」。錯誤。把一張稜皮龜圖片標註為「浴巾」。錯誤。

但失敗並非無用功。錯誤會觸發糾正訊號，在網路的數千萬個組成部分中蔓延開來，同時對每個部分對於結果的貢獻進行評估，並按比例推動它們下次採取不同的行動。這是最簡單的學習方式：減少失敗的行為，增加成功的行為。但學習的規模極大，演算法會仔細審查每個錯誤的每個細節：每一片光影、每一個圖案和紋理、每一個柔和的漸變和堅硬的邊緣。

在早期階段，效果並不明顯，當alexnet再次看到類似它之前錯誤分類的圖片時，很可能會再次出錯。不過，錯誤會更小一些。如此迴圈往復，直到正確為止，哪怕只是靠運氣。這一次，訊號的目的是強化，而不是削弱：強化任何看似指向正確方向的東西。訓練繼續進行。錯誤。錯誤。錯誤。正確。錯誤。錯誤。正確。正確。錯誤。

imagenet規模巨大，演算法學習也註定是個漫長的過程，即使只是為比賽挑選的1000個類別的子集，完成學習也需要很長時間。imagenet涵蓋了各種各樣的物件，比如數字鐘、籬笆、盤式制動器、秒錶、義大利灰狗、微波爐、醋栗，每個類別都有上千個不同的品種。不過，alexnet本身也是個龐大的網路。它有65萬個獨立神經元，通過6.3億個連線組成網路，其中有6000萬個微小的、幾乎無法察覺的權重影響著連線的強度，當訊號從網路的一端流向另一端時，一些連線會增強，另一些則會減弱。

作為整體，這些連線提供了一張巨大的畫布，足以描繪整個世界。在一輪又一輪的標註中，權重不斷變化，有的變強，有的變弱，有的搖擺不定，形成了一種柔韌結構，對訓練做出有機的優雅反應。承載這些龐大資料的是兩個輝達圖形處理器，高度專業化的矽晶片並行工作，以最快速度進行著一輪又一輪運算。

訓練從早到晚不停地進行，直到每幅影像的每個畫素都被研究完畢。幾個小時變成幾天，幾天又變成一週。圖形處理器推動之。imagenet挑戰之。alexnet適應之。隨著數以千萬計的權重一次又一次地調整，整個網路出現了更龐大、更奢侈的結構。就像鐵匠用錘子敲打發光的鋼鐵。每次微小的增量積累，直到近乎肉眼不可見的擾動變成山脈和山谷，延伸到數千維的超空間。這個網路是世界無數細節的幽靈般的均值，是1000種不同事物、每種事物1000幅不同照片留下的痕跡。這裡有1000只達爾馬提亞犬，那裡有1000個洗衣籃，另一處有1000個馬林巴琴。

就像地質變化一樣，種種印記凝聚成了地形，從alexnet的一端延伸到另一端。削筆刀、清真寺、海星、曲棍球——所有事物都鑲嵌在這個地形之中。演算法不僅「看到」了這些東西，還成為它們。我們花了數年時間在網際網路上搜尋照片，這些照片形成了完整多元的機器意識空間，原始而強大，成為世界一切事物的統一表徵。

在經過140萬輪標註後，最後幾張圖片與其說是一場磨鍊，不如說是一場加冕禮。網路的焦點穿過畫素，隨著熟悉模式的識別而亮起，並傳遞到下一層，與其他模式相結合，形成越來越強大的感知。演算法的反應不再是隨機的，大多數也不再是錯誤的。土狼。正確。檯燈。正確。敞篷車。正確。顯然，這是硬體、軟體和資料的神奇組合，比計算機視覺領域所打造的任何成果都更接近於捕捉到塑造了人類這種哺乳動物思維的進化精神。

imagenet的多樣性是在全世界眾包志願者的共同努力下實現的。它所形成的拓撲結構無比多樣、強大，達到了聖盃的境地。alexnet是計算機視覺領域有史以來最大的神經網路，它的訓練資料比此前任何神經網路都要豐富，而且具備了泛化能力。

我們要花上幾個月的時間，才能真正理解在那個會議室裡看到的一切，但即使在那一刻，我們也清楚地知道我們正在見證非凡之物。這麼多年來，我一直希望imagenet能夠推動新事物的誕生，現在我終於明白，一切的一切，都是為了認可和表彰一種永恆的成就，我們對此刻期待已久。受生物學啟發的演算法幾十年來一直凝視著我們，它只是需要適當的挑戰，才能充分展現出來。

這個下午也讓我們有機會回顧計算機視覺領域在過去10年的發展歷程。我的實驗室將所有賭注都押在了長達數年的、規模空前的資料追尋上，而辛頓的實驗室則將他們的聲譽都押在了卷積神經網路這套幾乎已經被專業領域拋棄的演算法上。我們都在賭，都有可能賭錯。但在那一天，當我們看到神經網路在imagenet強大訓練能力的支援下展現出的驚人能力時，我意識到，雖然兩個專案都獲得了認可，但這只是因為它們是同步發展的。所有參與者都不知道，我們的每一步都相互依賴。

我往返佛羅倫薩的飛行時間比在佛羅倫薩當地待的時間還長。但在返程的航班上，我的感受與來時完全不同。飛機上的擁擠程度絲毫未減，我的疲憊感更加濃重，但思緒已經不再飛速奔湧——至少不像來時那樣。我親眼見證了成果。沒有錯誤，沒有疏忽，也沒有文書方面的失誤。神經網路起死回生，比以往任何時候都更龐大、更復雜、更強大。imagenet已經教會了它們所需知道的一切，讓它們在一次嘗試中就達到了與人類能力相當的水平。

生物視覺的出現導致遠古海洋波濤下的寒武紀大爆發，距今已經5億年。而如今，我們很難不去聯想：我們是不是正處於一個類似拐點的邊緣？機器視覺的興起是否會引發一輪數字進化新浪潮呢？

我在來時飛機上狂躁的思緒和焦灼的問題一掃而空，取而代之的是一種意外的感覺。不是平靜，而是大悟，是沉思。這一次，從起飛到著陸，我一直靜靜地坐著，腦子裡只回蕩著一個念頭：歷史剛被創造出來，而世界上只有少數人知道。