我看見的世界：李飛飛自傳 09 萬物以外是什麼

whatliesbeyondeverything

深度學習革命已經到來，而我們還沒有做好準備。報紙上的一篇文章讓我看到了世界變化之快。我們的對手不是其他大學的某個神秘研究團隊，而是谷歌。

「哎呀，有點兒嚇人。」

這個學生說得沒錯。燈光閃爍了幾下後，照亮了整個大廳，奇特的幾何圖形瞬間映入眼簾：一排排廢棄的陰極射線管顯示器擺放在地板上，似乎已深鎖在黑暗中多年，不知是準備存放起來，還是要送去回收。整個大廳看上去像一個巨大的古董壁櫥，塵封已久，無人問津。很難想象這裡曾是學術要地。在2013年年初的一個普通的下午，我們手提垃圾袋，推著小推車，來到了世界聞名的斯坦福大學人工智慧實驗室曾經的中心實驗室。

幾十年來，曾經大膽自稱「人工智慧」的領域已經分裂成許多細分的學科，其中許多學科的命名拋卻了其認知根源，轉而使用更機械化的術語，比如模式識別（patternrecognition）和自然語言處理（naturallanguageprocessing）。在這個過程中，對中心實驗室的需求逐漸消失。當然，人工智慧中心實驗室仍在支援重要的工作，包括在自動駕駛汽車和計算生物學取得的開創性成就，以及在針對現實世界現象的建模方面，關於機率和統計的新創意出現爆炸式增長。但斯坦福大學人工智慧實驗室與其支援的研究之間的聯絡更像是一種形式，而不是其全盛時期的共同使命。

然而，突然之間，人工智慧的寒冬開始消退。神經網路等靈活的演算法重新煥發生機，真正的大規模資料集橫空出世，alexnet展示了演算法和資料集在實踐中的強大威力。這些曾經只有我最親密的同行才會關心的發展趨勢正在成為熱門話題。我們的研究領域似乎正在走向統一，只是這面統一大旗的名稱略有不同，是一個熱度與日俱增的流行說法——機器學習。

起初，變化的跡象非常微妙，比如我和同事們開始收到更多媒體採訪的請求。然而，最明顯的變化是，越來越多的科研人員被科技產業吸引，一些人完全離開了學術界，前往矽谷發展，最初的涓涓細流正在加速形成滔滔洪流。其中有兩個離職的人格外值得一提，因為正是他們在一夜之間改變了我的生活。

一個是塞巴斯蒂安·特龍。因為他的離職，我和西爾維奧終於有機會實現一直渴望的全家團聚。五年的兩地分居雖然辛苦，但我們突然意識到，這五年的辛苦是值得的：在我追逐imagenet的同時，西爾維奧已經成為3d感知演算法開發領域的領軍研究者，而這也是我們系非常感興趣的課題。在塞巴斯蒂安·特龍離開斯坦福大學，去幫助谷歌啟動其迅速成長起來的自動駕駛專案時，西爾維奧憑藉自己的聲望成為填補特龍職位的熱門人選。

出於顯而易見的原因，我並沒有參與對西爾維奧的招聘談話，但西爾維奧在我心中的種種優點也都被同事看在眼裡；他以壓倒性優勢獲批成為斯坦福大學教師隊伍的新成員。一個決定結束了我們長達五年、每週一次的跨州飛行，我們終於不用分居兩地又共同撫養蹣跚學步的孩子了。母親的身體一直不好，這意味著父母很可能會一直跟我和西爾維奧生活。毫無疑問，他回來後，家裡會比以往更加擁擠，但這個代價微不足道。

另一個則是長期兼顧教育和矽谷領導職務的吳恩達，他卸任了斯坦福大學人工智慧實驗室的主任一職。在許多資深同事的支援下，我接任了實驗室的第七任主任，也是首位擔任這一職務的女性。於是，我聯絡了電子產品回收專家，並安排了一系列會議（會議提供免費午餐，以此來吸引我的教授同事們參加），著手重建斯坦福大學人工智慧實驗室。我對實驗室的定位不僅是融資渠道，還希望將其打造成人工智慧研究領域的社會活動中心、人際交往中心，乃至文化中心。

從普林斯頓大學來到斯坦福大學之後，我也一直在管理著自己的實驗室。我的實驗室名為斯坦福視覺與學習實驗室，規模較小，位於蓋茨電腦科學大樓二樓的東南角，靠近大學校園的邊緣，與周圍帕洛阿爾託的山丘融為一體。無論日程表上是否有安排，我都喜歡來這裡轉轉。每個辦公室似乎都有一群新學生，我都至少能找到一兩個有空的學生聊上幾分鐘，談談他們的研究和一些漫無邊際的設想。

對我來說，有一件事意義重大：我的第一批博士生即將畢業，其中包括耐心非凡的鄧嘉同學。在完成imagenet之後，他身上的創新之火一直在熊熊燃燒，而現在距離獲得博士學位還有幾個月的時間，他的熱情似乎越發高漲。他的風格也代表了整個實驗室的狀態：精神煥發、全神貫注、渴望探索。

然而，這也意味著鄧嘉的研究變得越來越前沿，越來越辛苦。隨著他自身學術研究的廣度和深度不斷擴充套件，顯然是時候找一位繼任者來承擔競賽的主要組織工作了。在我們實驗室工作了一年的奧爾佳欣然接受了這一重任。從本質上看，我們的競賽既是技術挑戰，也是學術活動，而奧爾佳不僅悉心管理競賽的諸多運營細節，還將自己打造成了一位能力超群的競賽代言人。

與此同時，新一屆學生加入了實驗室，他們的迫切之情與老生的鎮定自若形成了鮮明的對比。由於imagenet的成功，實驗室吸引了一批特殊的年輕思考者。他們是在人工智慧復興時期就開始研究相關學術的首批學生，趕上了難得的際遇。他們已經足夠成熟，能夠認識到歷史正在被創造；同時也足夠年輕，可以在職業生涯起步時就抓住機會。

他們每個人都密切關注行業的最新進展，無論是通過網路、電視，還是在大廳漫步或與教授閒聊時偶然聽到的談話。這一切都預示著，未來似乎提前幾十年到來了，這個時代為他們提供了超越以往任何時代的機遇。有史以來第一次，計算機視覺專業學生的抱負不再是爭奪分散在全美各地的少數幾個令人垂涎的教職職位，而是進入科技行業工作，加入初創公司或科技巨頭。

在我們這樣的學術領域，如此讓人激動、回報優厚的前景並不常見。但我們的行動表明，即使是新入行的人，動機也並不複雜：面對綿延不絕的未知世界的地平線，我們從未像現在這樣渴望探索。我們被雄心無限的創造力驅使著，夜以繼日，廢寢忘食。全球各行各業必然已經有了各自的imagenet計劃，會以此為基礎開發許多應用程式，但我們知道那是他們的道路，不是我們的。北極星仍在遠方。我們的科學研究還沒有結束。

鄧嘉正在分享如何用一種創新方法解決影像分類失敗的問題，他的幻燈片讓實驗室裡爆發出陣陣笑聲。這個主題乍看之下並不搞笑，但為了干擾演算法，他用photoshop設計了一些怪物，它們有的古怪可愛，讓人啞然失笑，還有的讓人膽戰心驚，有的長著斑馬條紋和公羊角的袋鼠、從海浪中冒出的一直長著鯊魚牙齒的小貓，還有一隻皮膚上長滿西瓜紋的河馬。然而，真正讓大家捧腹的是此時螢幕上出現的圖片：一隻鴨子的身體上長著一顆完整的鱷魚腦袋，安靜地站在公園裡，兩條小細腿看上去毫無負擔，就像希臘神話中的怪物被改編成了兒童讀物。鄧嘉不為笑聲所動，繼續自己的演講。他解釋說：「我管這種動物叫‘鴨鱷獸’。」他的語氣如此平淡，我甚至懷疑他是否真的相信這種物種的存在。「喬恩說這是‘鱷鴨’。不過，最重要的是看我們的模型如何對其進行分類。」他再次點選滑鼠，這隻鴨子和爬行動物的混合體上方出現了演算法的描述，只有一個詞：「動物」。

這個標籤又引來了大家的一陣鬨笑，但鄧嘉依然不動聲色，這是他的典型風格，低調而出彩。此次演講以他最新發表的論文為基礎，論文題目叫作《賭注對沖：最佳化大規模視覺識別中的準確性和特異性權衡》，由他與即將畢業的博士生喬恩·克勞斯（jonkrause）合作完成。他們在論文中指出，即使是最先進的影像分類器，也面臨一個日益增長的挑戰，即需要在面對模糊不清的物體時做出明智的判斷。事實上，雖然「鴨鱷獸」無法被準確分類，但他們的模型並沒有貿然做出肯定錯誤的猜測，而是順勢退而求穩，直接給出了更安全的「動物」分類，這就是模型的高超之處——畢竟，拋開奇怪的細節不談，它看起來確實像是某種動物。

這項工作提醒我們，儘管我們的研究主要集中在視覺方面，但語言描述也是不可或缺的一部分。畢竟，沒有wordnet，就不可能有imagenet。wordnet為每個類別提供了框架，使它們不僅擁有自己的標籤，還能在相互連線的思維樹中找到自己的位置。如果沒有心理學家埃莉諾·羅施（eleanorrosch）的工作，很難想象wordnet會是什麼樣子。

羅施在範疇及其在思維中的作用方面做出了重大貢獻，為我們對這一概念的現代理解提供了關鍵幫助。她在全球開展了一系列實驗，主要研究人類是如何把世界概念化的，研究物件既有加州大學伯克利分校的研究生，也有巴布亞紐幾內亞的高原部落居民。雖然對範疇的研究可以追溯到亞里士多德，但羅施的實驗方法將簡潔清晰的邏輯與經驗資料相結合，在20世紀70年代掀起了範疇研究的熱潮。

在發表於1975年的開創性論文中，羅施提出了一組更精確的詞語來描述「理解層級」。所謂的「理解層級」，是指從「一般」到「特殊」的光譜，無數概念都可以在這個光譜上找到自己的位置。以鄧嘉的動物分類「鴨子」為例。「鴨子」存在於一個特定的細節層級上，與「鴨科」（包括鴨、鵝和天鵝的生物科）「動物」、「生物」以及最終的「事物」等淺層分類相比（羅施稱之為「上義詞」），要理解「鴨子」這一概念，需要更多資訊；但與「野鴨」「鴛鴦」「環紋鳧」等深層分類相比（羅施稱之為「下義詞」），理解「鴨子」所需的資訊則相對較少。從整體上看，包括imagenet在內的類似層級結構就像一棵樹。向樹根移動，意味著更低的特異性和差異性，而向樹葉（每根樹枝的最遠端）移動，則意味著更高的特異性和差異性。

鄧嘉和喬恩將這種層級原則引入了計算機視覺領域。如果分類器有充分的理由相信它觀察到的可能是鴨子或鱷魚，卻沒有足夠的資訊來判斷究竟是哪一種時，明智之舉就是將其上移一級，選擇概念更寬泛的上義詞，以犧牲較深一級的特定性為代價，換取較淺一級的安全性。

貓鯊、西瓜紋河馬獸、斑紋羊角袋鼠的奇觀告一段落，接下來，他們要展示的是這項技術在更為實際的場景中如何有效地發揮作用。一隻柯基犬的特寫鏡頭被傳統分類器錯誤地標記為「金毛尋回犬」，而他們的演算法則會對沖風險，採用「狗」這個更加安全的標籤；一輛外裝奇特、塗裝混亂的計程車原本被錯誤地貼上了「坦克」的標籤，現在則被標註為「車輛」；如此等等。

我不禁注意到，大資料的力量又一次得到了充分展示。如果沒有imagenet這一龐大的影像庫，他們的研究就不可能如此精妙。imagenet不僅提供了探索層級概念宇宙所需的原始資料，更重要的是，正是由於其規模和影像的本體組織形式，不同的概念關係才得以被發現。無須告訴模型如何從較高層級的細節移動到較低層級的細節，也無須設計新的連線或路徑列表。imagenet是如此全面，模型所需的一切都已存在其中。只需要一些新的策略，就可以充分利用之。

鄧嘉和喬恩的「對沖」技術是我認為最有啟發性的思維方式。對沖技術優雅而直觀，一旦理解它之後，甚至會覺得它非常簡單，但要完成開發，則需要真正的洞察力。他們的演算法巧妙精確，是計算機視覺多種發展方式的傑出典範。

接下來的演講提出了一個更廣泛、更深奧的問題：如果我們反其道而行之，深入分支，那麼等待我們的將會是什麼？我們的演算法將如何應對比其構建之時所能理解的世界更加微妙、更加複雜的世界？

接著，喬恩站起來回答。他來自俄亥俄州，溫文爾雅，穿著t恤和工裝短褲時感到最自在。他和鄧嘉一樣寡言少語，只是表現的方式更怪一點兒，比如，他很快就因迷戀小熊貓而出名，還列印了一張小熊貓的圖片，一直貼在工作站顯示器的上方。他也是一個不輕易屈服的人，就像我的實驗室裡其他頂尖研究人員一樣，當他覺得有必要讓別人聽到自己的聲音時，他會堅定地發表意見。

隨著滑鼠的點選，畫面分成了兩屏，一邊是一輛汽車的照片，另一邊是與之相對應的計算機輔助設計（cad）線框圖，也就是汽車設計師繪製的示意圖。然後，後一張圖片被疊加在前一張圖片上，用數字紅線勾勒出真實汽車的格柵、車窗和車身面板的輪廓，突顯了分類器為精確識別車型而需要準確辨認出的特徵。

「汽車嗎？」有人問。

「等一下。」喬恩會意地咧嘴一笑。

他不是在開玩笑。這是我們首次窺見一個比我們任何人意識到的都要大得多的話題。

我一直認為，imagenet的真正貢獻在於它的雙重性質。其龐大的規模之所以強大，是因為其中資料的組織遵循了本體層級結構，而其本體層級結構之所以強大，是因為資料規模足夠龐大和全面，涵蓋了如此多樣化的類別。這兩個優勢中的任何一個單獨拿出來都是不夠的。但就像規模本身一樣，「類別」這樣的術語也是相對的。如同對沖技術所展示的那樣，針對提出的問題，在多個不同的深度層級都能找到有效的類別答案。隨著深入層級的加深，概念之間的距離變得更小，分隔的細節也減少了，例如：事物—生物—植物—樹木—楓樹—歐亞槭。

雖然imagenet規模龐大、細節豐富，但它並非完美之作。雖然有些分類特別精細（樹木就是一個很好的例子），但有時候，一些明視訊記憶體在差異的概念依然會被歸為同一類別，概念範圍相對粗略，同類概念之間的差異也較為明顯。這確保了我們的分類器在很多領域都可以比較輕鬆地完成任務。

對某些事物來說，同一類別之間的差距微乎其微，汽車就是其中之一。鄧嘉和喬恩下午的速成班就讓我們見識到了汽車的複雜性。例如，我們可能會明顯辨認出一輛豐田汽車的圖片（僅管我們中的大多數人可能沒有準備好討論汽車）；經過一番研究，我們似乎也能確定這輛車是豐田雅力士。但到底是2008款還是2009款呢？這個問題一下子就把人難住了。是2008款豐田雅力士的熾烈藍珍珠色，還是2008款的河口藍珍珠色？當年兩種顏色都有，而且都是……藍色的。是熾烈藍珍珠色的2008款豐田雅力士基礎款，還是熾烈藍珍珠色的2008款豐田雅力士掀背運動款？神奇的是，還可以再繼續追問下去。這一切都是為了瞭解一個製造商生產的一個車型的一個款式。而這還只是汽車而已。

有聽眾指出，最近有幾篇關於鳥類的計算機視覺論文，其中有59種鳥被imagenet收錄，這個規模看起來已經很大了，但跟康奈爾大學一個涵蓋了數百種鳥的資料集相比，就相形見絀了。然而據估計，全世界有超過1萬種鳥，即使是最先進的資料專案也比現實落後了好幾個數量級。我想到了科技媒體上那種激動的口吻，一篇又一篇的文章宣告著機器學習時代已經到來，影像分類難題突然「迎刃而解」。我不禁笑了：這個世界上的梧桐樹、百靈鶴和豐田汽車可不是這麼想的。

下午的這堂實物教學課程的內容後來被稱為「細粒度分類」（fine-grainedclassification）。細粒度分類課題研究的是細節：識別的物件越相似，所需要的細節就越細微。乍一看，我們的研究只是從區分明顯的差異延伸到了解析不太明顯的差異，但這一過程卻向我們傳達了更加震撼和富有啟發性的資訊：即使是我們最大規模的設計，也還是想得過於狹隘了。

然而，科學最偉大的優點之一，就是能夠將讓人謙卑的一刻重塑為充滿可能性的一刻。我們花了數年時間收集了數十億張圖片，招募了全球志願者幫忙標註分類，但只要翻閱一下汽車雜誌《凱利藍皮書》，就能意識到，我們僅僅觸及了皮毛而已。比起樹葉，我們更接近樹根。我們付出了多年的努力，與地球上最聰明的人展開全球競爭，最終也只是向真正的視覺智慧邁出了一小步。

然而，當我環顧教室，我並沒有在學生們的臉上看到驚悚或絕望的表情。我看到的是他們眼後的齒輪開始轉動。毫無疑問，我們每個人都在想同一個問題：旅程尚未結束，我們還有很多事物要探索。

比德曼的數字的確很大，但這個虛構的數字很有必要，因為它把「萬物」的定義做了刪節，方便我們的思維和演算法進行理解；當然，即便是這樣的數字，我們的思維和演算法也只能勉強應對。現在，我們站在了新的起點。我們身處廣袤之境的懸崖邊緣，即將找到「萬物」以外的真相。

一個華麗的木製香料架引起了我的注意。我拿起來仔細看了看。父親注意到我感興趣的樣子，走過來跟我一起觀察。

「挺好看的，這個……」他說，然後又湊近看了看，「看著像手工做的，你不覺得嗎？這裡一定住著個木匠。」他放低了聲音，好像不想讓人聽到他在說普通話。

可能是，我自言自語著，瞥了一眼另一張桌子：「那邊有什麼有意思的東西嗎？」

「還挺多的，有些手套我很喜歡。還有一個特別漂亮的工具套裝。我看到車庫裡還有更好的工具，但我覺得不是用來賣的。我覺得這個房主應該會做木工。」

生活往往是這樣的：為人妻、為人母，同時追求自己的事業，所有的責任似乎在一夜之間爆發。雖然日程繁忙，我還是會偶爾抽出時間，陪父親去參加他最喜歡的車庫市場。我的生活步調似乎永遠在加速，而跟父親一起閒逛是難得的平靜和懷舊時刻。他的愛好就像一個紐帶，從我們在一個陌生國家最初的日子裡就一直伴隨著我們。我尤其喜歡他的用心和敏銳，看到陌生人車庫桌上擺放的待售物品，就能推斷出這個人的生活點滴。不管猜的是對還是錯，他的嘗試總是帶著真誠，而且感覺合乎情理。

多年來，這也成了我的習慣。

又是一輛特斯拉。2012年年中，models釋出還不到一年，就成了帕洛阿爾託隨處可見的時尚標誌。這輛車的車主可能是個技術男，或者是搞風投的。我經過的下一輛車沒那麼豪華，但也能反映一些車主的資訊。那是一輛兩廂車，車身漆成米黃色，但可能因為常年停在戶外而已經褪色。看起來像是我的學生會開的車。

朋友約我去一家新開業的火鍋店吃晚飯，我開啟谷歌地圖，找到了這家店，還用街景模式看了幾張店面照片，這樣從車上就能認出它。我無時無刻不在觀察各種視覺細節。在大多數時間裡，這種興趣會消退為一種白噪聲，但在今天開往火鍋店的路上，我的注意力比平常更加活躍。如果說我有一半的精力是在導航去往吃晚飯的地方，那麼另一半的精力則沉迷於沿途所見。

從個人到社群，汽車可以反映出人群方方面面的資訊，但相關資訊的評估規模卻相當有限。歷來的調查都試圖收集這類資訊，但聘請專業人員繪製整個城市的汽車保有量地圖既昂貴又耗時，而且無法在中等規模以上的地區進行實際操作。那麼，如果能夠克服這些限制呢？如果在我們希望的任何規模上，都能進行汽車保有量分析呢？如果不僅僅是分析汽車，而是能分析一切事物呢？如果我們想分析什麼，就能分析什麼，結果會怎樣？如果我們深入分析日常生活的相關資料，僅僅以這種簡單的方式，能獲得什麼有關社會、文化甚至政治領域的新見解嗎？這些問題似乎無法回答，除非我們創造出全新的感知方式。我突然靈感乍現：谷歌街景、汽車識別演算法、細粒度分類——原來我們已經在創造新的感知方式了！

alexnet催生了新一代神經網路，每年都取得令人驚歎的飛躍。像任何佔主導地位的生物一樣，這種新型神經網路幾乎壟斷了它們所處的環境。它們是如此有效而優雅，適用範圍又如此之廣，幾乎所有其他技術都在一夜之間被淘汰出局。僅在一兩年前，支援向量機和貝葉斯網路等演算法還是學術界的寵兒、研究人員的迷戀物件，而現在，這些演算法幾乎從會議講座、發表的文章甚至實驗室裡的談話中消聲遺蹟了，所有人都只想談論神經網路的最新發展。

我們之所以知道這一點，是因為許多新的神經網路模型參加了imagenet挑戰賽。自2009年imagenet資料集在計算機視覺與模式識別大會首次亮相以來，五年多時間裡，imagenet挑戰賽已經發展成為計算機視覺領域的基礎賽事，為該領域的技術進步提供了共同的基準，這也是我們一直以來的心願。為了避免任何明顯的利益衝突，我們實驗室的政策是不提交自己的演算法模型，但僅僅是觀摩比賽就已經成為一項定期活動，其重要程度可以與聖誕節相媲美。每年都有新的進展，機器表現與人類表現之間的差距不斷縮小。機器的誤差率越來越小，越來越接近人類的水平，也許未來甚至會超過人類的水平。

然而，技術表現接近「人類水平」的說法本身，會讓人覺得是臆想，甚至是海市蜃樓。人類的能力維度是豐富多樣的，遠非任何單一指標所能衡量。但我們的缺點和優點一樣具有啟發性。例如，人類可以用各種常識、視覺線索和直覺來解釋為什麼自己認為附近樹上的鳥是沿海藍鴉，在這方面，人類比機器做得更好。但人類識別鳥類的能力是非常有限的，即使是經驗豐富的鳥類觀察者，也很少能識別出幾百種以上的鳥類。因此，對普通的觀察者來說，絕大多數鳥類是未知的。

在一般物體分類方面，計算機已與人類水平相差無幾。當人工智慧努力克服相差的最後幾個百分點時，它似乎又在其他方面超越了我們，而且超越幅度極大，因為計算機在知識儲存方面的能力讓人類大腦望塵莫及。

從那時起，種種思考開始以新的方式連點成線。多虧了谷歌的街景系統，我們現在擁有了美國幾乎每一個社群的高解析度影像。雖然谷歌地圖的主要用途是幫助導航，但它展現的關於世界的種種細節讓我震撼不已。樹木、路燈、郵箱，當然還有我們駕駛的汽車——街景圖讓我們有機會窺探到那些隱匿在我們身邊的資訊。想到我們實驗室在精確區分汽車型號方面所做的工作，我就感覺街景圖提供的機會像是又一次意外之喜。

我越來越覺得，我們研究的主題已經不是「視覺」這麼簡單了。把視覺敏銳度和百科全書式的知識深度結合，可以帶來一種全新的能力。這種新能力是什麼尚不可知，但我相信，它絕不僅僅是機器版的人眼。它是一種全新的存在，是一種更深入、更精細的透鏡，能夠從我們從未想象過的角度揭示這個世界。

我們精心挑選散佈在網際網路上的資料，不斷擴充汽車模型的圖片庫。我想象著，如果要跟十幾歲時的自己解釋這種煩瑣的工作跟科學有什麼關係，可能很難說清楚。當然，具體的工作細節並不重要；它只是再次證明了我們實驗室的核心價值：永遠尊重世界的複雜性，並渴望不惜一切代價對其進行探索。我們感覺自己就像藝術愛好者在導遊的帶領下參觀博物館，每一個新的展品都在挑戰我們，同時也激起了我們對周圍無限細節的敬畏之情。

我們能如願以償、得到回報嗎？我們沒有浪費時間去擔心這個問題，而是選擇擁抱世界，接受世界的真實面貌，不妥協、不簡化——僅僅是這一點，就讓我們覺得這是一項值得為之獻身的使命。無論我們瞭解世界的視窗是汽車模型、鳥類物種，還是其他事物（也許我們的下一個專案將探索各種鋪設道路、爬行動物的鱗片、小提琴的飾面），每一步都讓人感覺距離用全新的眼光看待現實的時刻更近了一點。無論我們發現了什麼，我都相信這趟旅程是值得的。

與此同時，我們還要克服一系列常見的障礙。當然，規模是一個無法迴避的挑戰，但這次我們準備好了。在imagenet之後，我們已經習慣了處理海量資料所帶來的巨大負擔。我們仔細搜尋了craigslist、、edmunds和其他一些線上汽車交易市場網站，生成了包含2657種車型的訓練影像集，幾乎涵蓋了2014年在路上行駛的所有車型。我們把影像匯入我們構建的最大、最精確的分類器中。我們還利用大量的谷歌街景影像，在伺服器中填充描繪整個美國縱橫交錯的街道、林蔭大道、拐角、十字路口和死衚衕的照片。在我們的實驗室裡，世界的另一個縮影正在形成。不久之後，我們就可以直接研究這個縮影，揭開其中隱藏的秘密。

但要真正揭秘，還需要一番努力。我們計劃以汽車為切入點，把汽車和車主的收入、教育和職業等身份方面聯絡起來，探索更大的社會經濟問題。然而，我們不得不面對這樣一個事實：貨幣價值上的巨大差距往往只能表現為外觀上的細微差別。儘管我們可以輕易區分凱迪拉克轎車和豐田皮卡，但早期的實驗表明，一個經過訓練的「天真」的分類器很容易把凱迪拉克誤認為本田雅閣，尤其是當兩種車顏色相似時——這正是我們希望避免的錯誤。把凱迪拉克ats車型與cts車型區分開來難度更大，更不用說每個車型內部的無數變化了。我們發現，內飾的概念尤其令人頭疼，因為總價數千美元甚至更高的選裝包通常只是對車身樣式和徽標進行微小的改動。

「各位，在休息之前，我有個想法要跟大家分享。」在我們每週一次的街景專案研討會議即將結束時，一位叫蒂姆尼特·格布魯（timnitgebru）的研究生開口說道。大家聚集在我的辦公室裡，這是蓋茨電腦科學大樓三樓一個長方形小房間，完全符合人們對學術辦公室的刻板印象——狹窄的空間裡堆滿了書籍、檔案和小擺設，從書架往房間中央蔓延，讓辦公室顯得更加擁擠不堪。學生三人組在四面雜物的簇擁下，擠坐在鮮紅色的沙發上。

「我們的想法是將影像分類器應用到所有街景影像上，追蹤所有我們能追蹤到的汽車型號，看看能揭示出什麼樣的模式。我一直在研究，我想我們已經找到了完美的實現方法。」

蒂姆尼特是三位參與專案的學生中資歷最淺的，但她充滿激情，幹勁十足，氣場強大。雖然和我一樣個子不高，但她天生自信，具備出色的演講天賦，能輕鬆地掌控全場。鄧嘉正在為他的博士論文答辯做準備，喬恩則忙於處理其他專案，因此蒂姆尼特毫不猶豫地主導了這項研究。

我們初次相遇是在一年前，她參加了我的一個高階研討會。當時她還是電氣工程專業的三年級研究生，幾乎沒有人工智慧方面的背景。但我對她印象很深，不僅因為她是唯一一位攻讀工程學博士學位的黑人女性，還因為她樂於提問，表現出了教授們一眼就能注意到的強烈的求知慾。當她請求加入實驗室時，我毫不猶豫地答應了，甚至連推薦信這樣的基本手續都免了。

她接著說了下去，我能從聲音中聽出堅定的信念。「美國人口調查局每年都會在全國範圍內開展美國社群調查，追蹤全國各地的大量社會學資訊。」

「你是建議我們把這個納入我們的分析嗎？」

「可能性是無限的。人口普查絕對是資料寶庫，所有資料都是按照社群、縣、州甚至選區組織的，但收集這些資料需要花費海量的時間和精力。如果能把人口普查的資料和我們的分類器採集到的事物關聯起來，你能想象會產生什麼結果嗎？」

她已經從理智上充分闡述了自己的觀點，但最打動我的是她的熱情。作為教授，我們最希望看到的，也是覺得最有價值的，就是學生能夠獨立提出新創意、新想法，甚至完全出人意料的觀點。她的直覺沒錯。她幫助我們拿到了人口調查資料。仔細研究之後，我們不僅驚歎於資料的廣泛性和多樣性，還驚歎於它們所探討的議題維度。我們手頭擁有了全美範圍內的政治、教育、收入甚至犯罪情況，所有資料都可以與計算機視覺這一關於世界的根本性新訊號相結合。我們實驗室從來沒有遇到過這樣的資料，它們為我們的工作注入了前所未有的力量。我們的專案已經不僅僅是資料探勘這麼簡單了。

廚房裡一片狼藉，但非常符合我的心意。西爾維奧好像在自家作坊裡的工匠，嫻熟地在散亂的鍋碗瓢盆之間來回穿梭，偶爾拿起旁邊擺放的器皿，還不時地從檯面上的各種袋子、盒子和罐子裡抓取食材。

「你在做什麼呢？」我問。

「我就是想做點特別的晚餐，這是意式燉章魚，我還準備了西葫蘆意麵、烤辣椒、布拉塔乳酪和芝麻菜什麼的。」

「哇，我都等不及了，不過我們還是先把門關上吧。」

他知道我是什麼意思。在一個三代同堂、融合了兩種文化的家庭裡，西爾維奧很快掌握了與我母親共處一室的藝術。母親對廚房的清潔要求幾乎達到了極致的程度——她遵循著一邊做飯一邊收拾的信條，更準確地說，她的主要精力放在了收拾上，做飯只是順便為之。儘管她很喜歡西爾維奧的廚藝，但像這樣精心製作晚餐往往會導致家庭關係的緊張。我又欣賞了一會兒他的表演，然後暗自發笑。

「怎麼了？」西爾維奧問。

「你知道嗎，我覺得特別有意思。我一眼就能看出來今晚是怎麼回事。我立刻意識到必須讓媽媽遠離廚房。看到鍋碗瓢盆的奇妙排列，聽到嘈雜聲，我就知道你準備做一頓大餐，一進廚房就感受到了，都沒有刻意去想。你知道這讓我想到什麼了嗎？我想到了傑里米·沃爾夫。」

西爾維奧攪拌東西的手慢了下來。「沃爾夫……沃爾夫……哦，那個認知科學家？哈佛大學的？那個提出‘要點’的傢伙，對吧？」

「記性不錯！他好像1998年在哪本雜誌上發表過一篇特別難懂的文章。不是研究結果，就是一篇觀點文章，但絕對是我在加州理工學院讀到的最有影響力的文章之一。我現在還在想裡面的內容。」

傑里米·沃爾夫（jeremywolfe）是世界知名學者，主要研究視覺記憶的內部運作機制。他對人類迅速理解場景的能力非常感興趣，因此大部分研究工作都據此展開。1998年，他發表了一篇名為《視覺記憶：你對所見之物瞭解多少？》的文章，儘管其語調近乎口語，但其中的結論卻異常精闢。他說，當我們看到一幅影像時，我們的大腦會「記住場景的要點」。

「對，對。我記得當時覺得‘要點’這個詞出現在這樣的文章裡特別搞笑。」西爾維奧一邊用布拉塔乳酪、芝麻菜和西紅柿擺盤，一邊笑著說，不時還瞥一眼廚房門，確保門還關著。

「我喜歡這篇文章的一個原因就是他的語言風格。」我接著說道，「他的想法如此宏大，用詞卻非常直白。」

西爾維奧討厭做飯時分心。我知道這一點，他也知道我知道這一點。但他也很喜歡談科學，而且他早就知道，一旦我因為某個科學話題而興奮不已、滔滔不絕，他最好還是認真聽完。我微微一笑，知道他可能在切辣椒的時候還在心中默默提醒自己：要耐心聽她說話。

西爾維奧補充道：「他的想法是，我們對某個事物的第一印象就足以讓我們理解這個事物，至少在某種程度上理解它，對嗎？」

「對的，其中當然包括像物體這樣基本的東西。我們很擅長快速掃描事物，但我們更擅長留意它們的佈局和排列順序，就是角度、位置之類的。還有我們對這種順序的解讀。」

「事物之間的關係。」

「沒錯，但令人驚奇的是，我們做這一切都是不假思索的。在一瞬間就發生了，就像我今晚看到你做的菜一樣……」

「飛飛？你在裡面嗎？」

是媽媽。我和西爾維奧面面相覷，瞬間睜大了眼睛。

「門怎麼關著？」她繼續問。