我看見的世界：李飛飛自傳 11 無人可控

noone’stocontrol

此時，我們都處在一場全球風暴之中，我們要從根本上重新構想人工智慧，使其成為以人為本的實踐，這個共同的目標就是下一顆北極星。

「嗨，你是飛飛，對吧？」

我轉身去看問話的人，他禮貌地做了個手勢。

「我叫戴夫，」他伸出手和我握手，「前幾天聽到你在播客上的節目，忘了是哪一期了。你知道嗎，我們風險投資公司一直在談論人工智慧，簡直就是一刻不停。」他接著說，「就在過去的幾個月裡，我們已經完成了四個a輪融資，都是在這個領域。」

我笑了笑，不知道還能作何反應。那是2014年，風險投資的術語讓我在自己的領域裡感覺像個局外人。

「嘿，你見過傑弗裡了嗎？」他轉過身向對面的另一個人招手，那個人穿的牛仔褲和羊毛套頭衫看起來跟他的一模一樣。

「傑弗裡，過來過來，我想介紹你認識一個人！傑弗裡是負責產品開發的副總裁，在……」

「好了，各位，請注意，我們可以開始了。」謝天謝地，一個聲音從房間那頭傳來，打斷了他，「我要感謝大家今晚的到來。學前班是孩子們人生的重要一步，今年我們為他們做了非常棒的規劃。」

「一會兒再聊！」他擠坐在倉鼠籠旁邊的小木椅上，低聲說。

無論我們學術界如何看待人工智慧，或者對其未來作何預測，有一點是不可否認的：人工智慧已經不再由我們掌控了。十多年來，我對人工智慧一直痴迷不已，它就像一層思想的外殼，悄然疊加在我的世界觀之上。然而，到了2010年代中期，相關話題已經獲得極大的公眾關注，各種討論鋪天蓋地、震耳欲聾。加州矽谷101號公路沿線的廣告牌宣告著人工智慧初創公司的招聘狂潮；在我的牙醫候診室裡的雜誌封面上，有關於人工智慧的報道；開車換臺時，還能從汽車收音機的談話片段中聽到關於人工智慧的討論；顯然，在幼兒園家長會上，它也成了熱門話題。

世界正在變得超現實。我和同事們窮盡職業生涯探索人工智慧科學，但我們現在突然面對著「人工智慧現象」（我還沒有找到更確切的說法）。人工智慧本身就充滿了難以解開的謎團，現在，這項技術與各行各業、政府、記者、評論員甚至廣大公眾之間的互動突然激增，千絲萬縷的關係與技術本身一樣錯綜複雜。經過幾十年的模擬環境開發和測試，人工智慧已經進入現實世界的應用階段。在人工智慧的發展史上，充滿了對其擬人化的嘗試，但這些嘗試帶來的更多是誤導，而非深刻的洞見。雖然我也不太願意把人工智慧明確地比作活的有機體，但不可否認，它已經進化出新的形態，躁動不安，嗷嗷待哺，渴望探索。

不到一年前，在我和安德烈的研究領域，谷歌迎頭趕上的訊息讓我震驚不已，但如今卻感覺已像陳年舊事。作為曾經的人工智慧研究主力軍，大學實驗室現在已不是推動前沿發展的唯一機構。這已成為不爭的事實。無論是在github等平臺上分享程式碼，還是在reddit等論壇上討論最新進展，我們都與谷歌、微軟和臉書等科技巨頭、遍佈全球的初創企業、貪婪的風險投資人網路，甚至開源社群的軟體開發人員共享繁榮熱鬧的景象。

有太多話題可以探討。

2015年，鄧嘉和奧爾佳發表文章，回顧了imagenet比賽迄今為止的影響，並分享了安德烈的研究成果：他估計人類在標註1000幅影像時的錯誤率約為5.1%。雖然安德烈只是出於好奇才做的研究，但其結果卻大大增加了比賽的刺激性。突然之間，演算法不僅相互競爭，還開始與人類一決高下。2014年，谷歌的神經網路分類器googlenet的錯誤率僅為6.67%，達到創紀錄的最低水平，人類幾乎要失去榜首地位了。

儘管alexnet和googlenet是計算機視覺領域的真正飛躍，但我們還遠遠未能瞭解其全部潛力。舉例來說，我們確信網路深度是決定效能的關鍵因素，而gpu優惠的價格意味著我們終於有足夠的處理能力，讓深度達到前所未有的水平。然而，簡單增加神經網路層數並不是萬能之策。在初始階段，網路深度的增加會提高影像識別準確率，但很快就會到達臨界點，此後就是收益遞減。我們懷揣著遠大抱負，構建的神經網路越來越大，卻在不經意間將網路變成了迷宮。過多的分層會破壞訊號傳遞，導致訓練過程停滯不前，使系統失去效果。

顯而易見，要實現宏偉的目標難度很大，與投入多少矽片並沒有直接關聯。這意味著即使在現在，我們的網路也無法吸收和消化imagenet等大型資料集，沒有充分利用其潛力。我們需要改變現狀，不斷進化，不僅在規模上，更在創新上。這正是我期望imagenet挑戰賽能帶來的激勵和感召。

我終於如願以償。2015年，由微軟的年輕研究員何愷明帶頭研發的深度殘差網路（deepresidualnetwork，resnet）再次改變了比賽格局。resnet達到了驚人的152層，但對網路架構進行了扭曲，允許在訓練階段繞過其中的某些層，使得不同的影像對網路中較小的子區域產生影響。

雖然經過全面訓練的系統最終會充分利用其深度，但在訓練階段，沒有任何一個圖片示例必須覆蓋整個系統。這樣的架構帶來了兩全其美的結果。一方面，增加層數可以提高效能，吸收更多資料——resnet使用的imagenet資料量超過了當時其他所有的參賽演算法；另一方面，在不降低效能的前提下，保持了訊號自由流動所需的簡潔性。resnet是教科書式的範例，充分說明了在人工智慧領域，創造力是推動著輝煌時刻出現的力量。

然而，resnet的設計只是故事的一半。resnet的最終效果甚至遠遠超出了設計者本人的預期，還因驚人的效能而登上了《紐約時報》等主流媒體的頭條。resnet獲得全球關注是意料之中的事：它的識別錯誤率僅為4.5%，遠遠低於安德烈估算的人類錯誤率。簡而言之，視覺分類的挑戰似乎已經迎刃而解，機器輕而易舉地超越了它們的創作者，完成了幾年前還幾乎不可能完成的任務。多麼令人驚歎的里程碑啊。然而，沒過多久，我們就意識到這只是開始，更多的里程碑將會陸續出現。

嘿，你在關注alphago嗎？

你知道哪邊能贏嗎？

我該不該賭一把？哈哈！

我的第二個孩子剛剛出生，如果有什麼能讓我與外界隔絕至少一兩個星期，那應該就是生孩子這件事了。但我才出院幾天，資訊就如潮水般湧來，手機一直嗡嗡作響，提醒著我，我並沒有偷得浮生半日閒的好運氣。

2016年年初，媒體對deepmind的關注不斷升溫。deepmind是一家總部位於倫敦的初創公司，正在籌備一場圍棋大賽，參賽雙方分別是圍棋大師李世石和一臺機器。在此之前，這家科技公司一直名不見經傳（甚至我對它的瞭解也只是皮毛），而現在似乎變得家喻戶曉。此前一年，谷歌大舉收購各類人工智慧初創公司，deepmind以超過5億美元的高價成為其中最昂貴的交易。但比價格更令人難忘的是它的使命。「他們聲稱正在研究agi。」我記得有同事帶著學者特有的世事洞明的笑意告訴我。

我完全能理解同事的厭倦之情。agi指的是「通用人工智慧」（artificialgeneralintelligence），是一種極其複雜、靈活的人工智慧，不僅能完成影像分類或跨語種文本翻譯等狹隘任務，還能模擬人類一切認知能力，如分析、創造等。雖然我無法確定這個詞是何時成為專業術語的，但電腦科學領域以前肯定沒用過它。畢竟，「通用」智慧從一開始就是人工智慧的全部意義所在，前路雖長，但這並不意味著我們可以降低目標。對我們這些研究人員來說，agi這個新詞聽起來有些多餘。但它讀起來朗朗上口，可以讓外界清楚地瞭解我們這個領域的終極目標，也讓deepmind在已經競爭激烈的生態系統中顯得膽識非同一般。

我被各種問題狂轟濫炸——學生、好友，甚至一些交情不深的朋友都給我發來訊息，問我有沒有什麼預測可以分享。我確實沒有，但當家裡另一位人工智慧教授突然拿著一瓶剛衝好的奶走進房間時，我忍不住也向他請教。

西爾維奧說：「嗯，兩種可能性都有。早在20年前，深藍就在國際象棋比賽中戰勝了人類，」他似乎在心裡算了一會，「準確地說，是19年前。」

書呆子就是書呆子。

「不管怎麼說，」他繼續說，「雖然圍棋比國際象棋難很多，但仍然屬於棋盤遊戲。規則雖然複雜，但都非常直接明確，至少從數學角度來看是這樣。」

他意識到自己越說越有教授的腔調了——雖然我們說好了在家裡不能這樣，但經常做不到。他一邊笑著，一邊小心翼翼地把奶瓶放進熱奶器裡。我們幾乎同時說出了接下來的話：「跟衝奶完全相反！」

他說得沒錯。圍棋策略的組合數量大到無法想象，關於如何就此建模，我們倆可以侃侃而談，但像準備一瓶嬰兒配方奶，再把奶瓶放到熱奶器裡這樣簡單的事情，卻依然是機器人專家的「聖盃」——儘管在嚴格控制的實驗室條件下，衝調完美配方奶粉的問題已經得到解決，但在實驗室之外，依然存在巨大挑戰。

1997年，國際象棋大師加里·卡斯帕羅夫（garrykasparov）與ibm的超級計算機深藍（deepblue）進行國際象棋比賽，計算機正式打敗了人類，訊息一齣，轟動一時。但是，相對於國際象棋，圍棋的複雜性不僅體現在規則上，還體現在策略組合的可能性範圍上。事實上，圍棋的規則決定了棋子所產生的可能性範圍極大：棋盤上19×19的格子可以帶來的組合總量多達10的360次方。這個巨大的數字超過了宇宙中的粒子數量，且超過許多個量級。要下好圍棋，人類需要通過畢生的實踐不斷培養直覺能力，在每個回合都要把理論上的無數種選擇縮減為可操作性的若干種落子選擇。而就算是最先進的人工智慧，其認知深度也不足以複製這種能力。

的確，尋找最佳落子方法所需的計算量是巨大的，因此使用計算機下圍棋難，難於上青天。儘管如此，我們仍有理由保持輕鬆樂觀，因為圍棋遵循一套明確而客觀的有限規則，勝負的標準就是看哪一方的棋子在棋盤上佔的地盤更大。所以與真正的登月相比，圍棋可以說是相對簡單的。

「即使它贏了，」西爾維奧補充道，「要想做義大利千層麵的功夫超過人類，機器還需要一段時間。」

就這樣一個簡單的回答，西爾維奧讓我對現代人工智慧有了更深刻的認識，同時也讓我感到飢腸轆轆。

事實上，alphago確實贏了，全球媒體紛紛報道，關注度達到了巔峰。整個世界為之沸騰，而亞洲的反應尤其狂熱。對我來說，體現熱度的最直接指標出現在個人生活層面。

「飛飛，我的老同學們問我你知道ai下圍棋是怎麼回事嗎？」爸爸給我轉了一大堆他國內的朋友發來的微信，最近這樣的資訊感覺沒完沒了。「他們聽說我女兒是ai教授，都在問我呢！」新聞頭條是一回事，但當父母和他們在國內圈子的同齡人都在討論人工智慧時，說明世界真的變了。

在這個時期，人工智慧領域的轉折點層出不窮。即便是最引人注目的突破，我們也不陌生，因為我們為人工智慧技術奉獻了一生，現在是開花結果的時候了。resnet和alphago等的故事激發了各界的對話和討論，也激勵我們在自己的研究中更進一步。我意識到，人工智慧的新時代不僅僅是一種現象，因此我忍不住借用了矽谷最喜歡的一個詞，因為正如他們所言，這是一場「顛覆」。

我辦公室裡的那個小小的紅色沙發，曾經見證了我們實驗室眾多聲譽卓著的專案的誕生，如今它成為我敦促年輕人多讀文獻的地方。我經常要求他們，在進行研究的同時，務必為人工智慧科學賴以建立的基礎文獻留出空間。時代不斷加速發展，每個人的注意力都集中在了更熱門的資訊來源上，而傳統文獻卻一直被忽視。我注意到了這個問題，起初感到惱火，後來又心生擔憂。

「請大家不要每天只從arxiv下載最新的預印本作品了。去讀一讀拉塞爾和諾維格的著作，去讀明斯基、麥卡錫和威諾格拉德的書，讀哈特利和西塞曼的作品，讀一讀帕爾默寫的東西。不要因為這些材料距離現在時間久就忽略它們。我們就是要多讀一些以前的東西，他們的理念經得起時間的考驗，依然非常重要。」

arxiv是涵蓋物理學和工程學等領域學術文章的線上資料庫，其中的文章尚未在學術期刊上正式發表，但會提前以未經編輯的預印本形式提供給對內容感興趣的讀者。幾十年來，預印本一直是大學文化的固定部分。然而近些年來，人工智慧發展極其迅速，每週都在發生變化，甚至整個領域會在一夜之間被顛覆。為了保持與時代同步，預印本已成為重要的資料來源。如果說要學生們等上幾個月去讀通過同行評議的論文都是過分的要求，那麼幾年前編寫的教科書，甚至是整整幾代人之前編寫的教科書被束之高閣，又有什麼好奇怪的呢？

太多事情在搶佔學生的注意力，文獻只是個開始。科技巨頭爭相組建人工智慧團隊，公開大肆招攬人才，承諾的起薪高達六位數，有時甚至更高，還提供豐厚的股權待遇。機器學習先驅一個接一個離開了斯坦福大學，到了2010年代中期，連博士後都成了搶手人選。希望推出自動駕駛汽車的優步邁出了大膽的一步，從卡內基梅隆大學挖走了40名機器人專家，數量之多堪創紀錄，幾乎摧毀了這所大學的機器人研究體系。對我和同事們來說，光是目睹優步事件，就已經夠難受的了，而對我的學生們來說，這件事似乎從根本上扭曲了他們對教育之意義的認識，因為他們年齡尚小、充滿渴望，而且仍在尋求自己的身份和認同感。最終，這種趨勢達到了頂峰——至少對我個人來說是這樣——非常出乎我的意料。

「你真的要拒絕他們嗎？安德烈，那可是全球最頂尖的學府之一啊！」

「我知道。但是我不能錯過這個機會。真的很特別。」

安德烈已經完成了博士學業，即將進入人工智慧史上最有前景的就業市場，即使對一個有志成為教授的人來說也是如此。普林斯頓大學給他提供了教職機會，這是我們任何一個同齡人都夢寐以求的職業快車道。然而，他卻決定徹底離開學術界，加入一個沒人聽說過的私人研究實驗室。

安德烈即將加入openai的核心工程師團隊。openai由矽谷巨頭薩姆·奧特曼（samaltman）、埃隆·馬斯克和領英執行長裡德·霍夫曼（reidhoffman）共同創立，初始投資高達10億美元，這充分證明矽谷對人工智慧的突然崛起是多麼重視，矽谷的傑出人物多麼渴望在人工智慧領域站穩腳跟。

openai推出後不久，我在當地的聚會上遇到了幾位創始成員，其中一位舉杯祝酒，但他的歡迎詞頗有幾分告誡的意味：「每個從事人工智慧研究的人，都應該認真思考自己今後在學術界的角色。」他說這番話時沒有一絲笑意，言辭中透露出明確而冷酷的資訊：人工智慧的未來將由那些擁有企業資源的人書寫。在學術界受訓多年的我想習慣性地反唇相譏，但我沒有。老實說，我甚至都不確定自己是否反對他的觀點。

誰也無法預測一切會走向何方。與大多數領域相比，我們的領域經歷了太多起起伏伏，雖看似前程遠大，但數度出師不利，「人工智慧寒冬」一詞就反映了其多舛的命運。但這次感覺不一樣了。隨著越來越多學者的深入分析，科技界、金融界和其他領域逐漸認可了一個術語：「第四次工業革命」。雖然流行語背後通常存在著誇張成分，但這個詞的確名副其實，足以讓決策者們銘記於心。無論是源於內心真正的熱情，還是來自外部的壓力，抑或是兩者兼有，矽谷的高管層都在採取比以往更迅速、更大膽甚至更冒險的舉動。我們即將見證這種企業理念將會帶來何種結果。

「猿。」我的天哪。

這是雅虎圖片託管服務flickr在2015年5月自動生成的一個標籤，用來描述56歲黑人男子威廉的單色肖像。雅虎的新技術立刻引發了各方強烈憤慨，可謂自取其禍。此後，這項技術接二連三出現失誤：將達豪集中營大門的照片標記為攀爬架，把一位臉上塗有彩色粉末的白人婦女貼上了「猿」的標籤。雅虎flickr一經推出，即麻煩纏身。不僅是雅虎，到了6月，谷歌也陷入了類似的爭議，因為谷歌照片服務將兩個黑人青少年錯誤地標記為「大猩猩」。影像分類本已是老生常談的成功技術，卻在短短幾周內變得非常複雜。

即使不是這些公司的員工，我們也很難不感到一絲罪惡感。雖然事故並非惡意，但這並不能讓人感到寬慰。相反，無心之失所揭示的問題才更加令人不安：包括imagenet在內的資料集由於缺乏多樣性，導致了一系列意料之外的結果；未經充分測試的演算法和存疑的決策又進一步加劇了負面影響。當網際網路呈現的是以白人、西方人和男性為主的日常生活畫面時，我們的技術就很難理解其他人群了。

有果必有因，正如記者兼評論員傑克·克拉克（jackclark）所言，問題的根源在於人工智慧「男性之海」問題：科技行業的代表性不足，導致演算法無意中帶有偏見，在非白人、非男性使用者身上表現不佳。這篇文章於2016年發表在彭博社網站上，是對人工智慧倫理問題的最早一批討論之一。此後，相關對話日益激烈。人們擔心人工智慧在做好事的同時（如支援殘障人士、追蹤森林砍伐、以各種新方式保護人類生命等），也有可能產生危害。

我想到了為打造imagenet而掙扎奮鬥的那些年——即使在我們最具創造力和即興能力的時候，也沒有考慮到倫理問題。十年前，由谷歌和維基百科等組織的內容呈爆炸式增長，似乎極大地拓寬了電視和報紙等傳統媒體提供的狹隘視角，為我們提供了一扇瞭解人類生活真實面貌的視窗。從某種程度上來說，它們確實做到了。然而，雖然一切看起來很生動，雖然我們的期望是如此熱切，但所形成的圖景還遠遠不夠完整。

這個問題早就應該面對，但對話並不足以安慰我內心深處的工程師。顯然，資料集不平衡是造成問題的重要原因，但還有無數其他因素值得我們考慮。模型本身是否存在問題？在依賴所有資料的演算法架構中，是否隱藏著未被發現的弱點？可以促進訓練過程的學習技術有問題嗎？問題的數量超過了答案，而且這個差距越來越大。

這些問題也壓在奧爾佳的心頭。人工智慧是以男性為主導的領域，作為少數女性，我們兩個人多年來一直惺惺相惜，彼此分享著身為女性在人工智慧領域的經歷，也沮喪地發現，我們的經歷非常相似。到了2010年代中期，奧爾佳忍無可忍，她下定決心，要麼採取行動改變現狀，要麼離開學術界。她選擇了前者，我們決定一起努力。

我們認為，從代表性問題的出現，到問題被大眾真切地感受到，中間往往需要幾年的時間。因此，我們向九年級和十年級的女生開放了斯坦福大學人工智慧實驗室課程。所有參與的學生都是經過精挑細選的，為期兩週的人工智慧速成課程雖然緊張，但實踐證明，只需要一點點努力，就可以讓每個一直被歷史排除在外的參與者相信，她們同樣屬於這個時代、這個領域。邀請少數人群參加人工智慧課程的想法非常受歡迎，我們的專案很快就像滾雪球一樣發展成為全國性的非營利組織，遍佈北美各地校園，使命範圍也不斷擴大。很快，我們也開始向有色人種學生和經濟困難學生等邊緣群體提供類似專案。

在短短幾年後，我們的專案就正式命名為ai4all，甚至吸引了一些資金，梅琳達·弗倫奇·蓋茨（melindafrenchgates）的pivotalventures創投公司和輝達創始人黃仁勳提供了一輪融資，讓專案改頭換面。這個旅程可能需要幾代人才能完成，現在只是邁出了一小步，但我們實現了從無到有的跨越。此外，專案還能帶來一絲安慰——在業界追逐人工智慧未來時，往往肆意而為，缺乏自省，而我們的努力能夠保證，至少有一小部分人在逆向而行。

雅虎和谷歌等公司在全球的注視和評判下得到了慘痛的教訓。親眼看到這些事件提醒我們，僅僅對下一代技術進行投資，然後期望一切順利是不夠的。普林斯頓大學向奧爾佳提供了教授職位，她接受之後，開始著手擴充套件自己新實驗室的研究議程，不僅包括機器感知的機械原理，還涵蓋更廣泛的計算公平性問題，尤其強調要「去偏見」。「去偏見」是遵循嚴格數學要求的正式操作，旨在對潛伏在資料中的偏差進行量化和中和。這種理念體現了對社會福祉議題的深切關注，有奧爾佳這樣的人據此展開研究，我對未來的希望又開始增加了。

我全心全意地相信人工智慧技術的價值，它具有揭示智慧奧秘的潛力，也可以帶來我和阿尼在醫院工作時目睹的種種實際的益處。但是，哪怕是片刻的過度自信，付出的代價也會急劇上升。更糟糕的是，這個代價將由其他人承擔，很可能是最脆弱的人群。人工智慧已經走出了實驗室，基本脫離了我們的控制。雖然新思想、新面孔和新機構的旋風令人振奮，但也帶來許多新的擔憂。對我們這樣經費極其緊張的研究人員來說，對人工智慧領域進行商業投資的承諾似乎是天賜之物；但商業資金以巨大的力量沖刷著一切，好像一場豪賭，讓人感到的不是幸運，而是不祥和擔憂。

詞不達意的問題依然存在。使用「現象」一詞太過被動，「破壞」顯得粗魯，「革命」過於自我陶醉。現代人工智慧面紗揭開，我們看到的是一個紛繁複雜的迷局。令人不安的危險感日益增長，但這種危險感是科學家天生能夠識別和理解的。我產生了新的好奇心，雖然令人不適，卻具有強大的吸引力。我只需要一種近距離觀察危險的方式。

「到目前為止，結果令人鼓舞。在我們的測試中，由‘神經架構搜尋’設計的分類器經過imagenet訓練後，效能超過了人類設計的同類分類器；所有工作都是靠計算機自己完成的。」

那是2018年，在加州山景城的谷歌總部中心googleplex，我坐在谷歌大腦（googlebrain）的長會議桌一端。谷歌大腦是谷歌最著名的人工智慧研究機構之一。此次會議的主題是「神經架構搜尋」（neuralarchitecturesearch，nas），這是一種可以自動搜尋神經網路的最佳化架構。神經架構搜尋的發展成果特別令人激動，幾個月來在谷歌內部持續引發熱議。

此類模型的行為方式是由一系列引數決定的，這些引數在速度與準確性、記憶體與效率以及其他關注點之間進行權衡。對一兩個引數進行微調非常容易，但要實現所有引數之間的平衡，往往是一項考驗人類能力的任務，即使是專家也很難把每個引數都調整到最佳狀態。如果能實現自動化調節，將會帶來極大的便利，顯然是值得追求的目標。自動化還能降低人工智慧的使用難度，讓越來越多的非技術使用者在沒有專家指導的情況下，使用人工智慧構建自己的模型。此外，用機器學習模型來設計機器學習模型，並且能夠迅速超越人類的能力，的確非常富有詩意。

但所有功能都是有代價的。單個模型的訓練成本依然很高，只有資金最雄厚的實驗室和公司才負擔得起，而神經網路架構搜尋則需要訓練數千個模型。這項創新很了不起，但從算力的角度來看，造價也極其昂貴。成本問題是會議討論的重點之一。

一位研究人員問道：「這是在什麼樣的硬體上執行的？」

「在整個過程中的任何時刻，我們都在同時測試100種不同的配置，每種配置訓練8個特性略有不同的模型，所以共有800個模型在同時訓練，每個模型都分配了獨立的gpu。」

「這麼說，我們大約要……」

「800個gpu，沒錯。」

800個gpu！2012年，alexnet只需要兩個gpu就能改變世界，現在的需求卻飛速增加，其速度之快令人目眩，以後更會有增無減。根據我自己實驗室的預算，輝達最強大的gpu成本約為1000美元（這也解釋了為什麼我們自己只有十幾個gpu）。此外，還需要把這麼多高效能處理器連線到一起，確保所有晶片晝夜不停地模擬運算，同時裝置可以維持在可接受的溫度範圍內，這些都需要花費時間和人力。此外還要選擇合適的地點。網路硬體佔據大量的物理空間，耗電量巨大，因此不可能在普通車庫或臥室中搭建。即使是像我們這樣的大學實驗室，也很難建造出如此龐大的網路。我靠在椅背上，環視了一下房間，想知道是否還有其他人和我一樣對此感到沮喪。

2016年，我即將迎來21個月的學術休假，暫時離開教授職位。我的收件箱被來自輝達、優步和谷歌等公司的邀請資訊淹沒了。我保持著一種久經磨鍊的本能，對這些資訊一概不予理睬，卻越來越多地發現自己停下來片刻，關注這些資訊。我嘆了口氣，跟以前相比，現在去科技公司工作也許會更有意義，哪怕只是一點點。

我不得不承認，進入私營企業工作的想法不再像從前那樣陌生。身邊已經有數不清的同事實現了轉型，就連我的學生也紛紛放下學業，到世界各地的科技公司進行高薪實習，有的更是一去不復返。如今，一切變化如此之快，我不得不懷疑，我對加入企業的厭惡是不是已經過時了？我想看看斯坦福大學和科學期刊之外的現代人工智慧是什麼樣子。也許，眼下正是好機會，至少可以讓我暫時體驗一番。

經過再三考慮，我最終決定接受谷歌雲的人工智慧首席科學家一職。雖然此時的谷歌是一家有近20年曆史的大公司，但云計算部門才成立一年左右，我覺得這是幫助谷歌從頭開始打造人工智慧的好機會。我還碰巧認識公司新任命的谷歌雲執行長黛安娜·格林（dianegreene）。她曾是虛擬化巨頭vmware的聯合創始人，是為數不多征服矽谷的女性，我期待著在性別比例極不平衡的行業裡與她並肩工作。

這不像我本科時得到的那份看似光鮮亮麗的華爾街工作，也不像我在加州理工學院得到的麥肯錫快車道職位（當時我還因為要不要接受這個職位糾結了很久）。我一度把企業的工作當成是具有嘲諷意味的賄賂，目的是讓我放棄實驗室，但現在，我無法再繼續假裝它是一種賄賂。這是一份邀請，讓我可以運營規模更大的實驗室。其能力遠超我的想象，我可以使用任何規模的高效能算力，由博士組成的研究團隊比我在斯坦福大學能召集到的任何團隊都要大幾個數量級。最吸引我的是，我可以獲得我以前做夢都無法想象的海量資料。當然，我的工作會受到公司產品路線圖的驅動，至少是間接驅動，但這些產品始終是基礎研究的下游，正是基礎研究讓它們成為可能。

最重要的是，谷歌雲意味著我看到的不是一個，而是成千上萬個人工智慧的應用案例。隨著雲服務在人們能想象的幾乎任何行業找到立足點，谷歌和其他雲服務提供商也成了各行各業的固定夥伴。我有機會看到人工智慧在製造業、農業、保險業、運輸和物流業、零售業、金融服務業甚至政府部門的應用情況，以及為其提供支援的資料。其規模之大、種類之多，是任何一所大學都無法同時提供的。

我並不打算完全離開斯坦福大學，即使在學術休假期間也是如此，所以我花了一些時間來敲定細節。我會繼續每週在校園裡待一天，這樣我就可以與實驗室保持聯絡，並跟學生們見面。顯然，後勤工作將是個挑戰，但我已經做出決定。

我在大學這些年的所見所聞也不少，但谷歌雲幕後的一切仍然出乎我的意料。科技行業的財富、權力和雄心向來名聲在外。在親身經歷後，我覺得實際情況比傳聞有過之而無不及。我看到的一切都比我所習慣的更大、更快、更精密、更復雜。

光是食物的豐富程度就令人咋舌。休息室裡的零食、飲料和專業級意式咖啡機比我在斯坦福大學或普林斯頓大學見到的要多得多。幾乎每棟大樓的每一層都設有這樣的休息室。而這一切，都還只是我在進入自助餐廳之前所看到的。

其次就是科技。這麼多年來，我們一直用的是2000年代的投影儀和視訊會議裝置，故障頻發，效能很不穩定，經常讓人大為惱火。相比之下，谷歌的會議現場就像科幻小說裡的場景。無論是可容納50人的高管會議室，還是供一人使用的衣櫃大小的會議箱，每個房間都配備了最先進的遠端呈現技術，只需輕點觸控式螢幕，就能啟動一切。

還有就是人才。谷歌人才濟濟，令人歎為觀止。回想起自己花了兩年時間才招募到三位合作者來幫助建立醫院環境智慧，我不禁自愧不如。在谷歌，15人的團隊已經準備就緒，只等我立即加入。而這僅僅是個開始——在短短18個月內，我們的規模擴大了20倍。擁有優秀資歷的博士似乎隨處可見，讓我覺得一切皆有可能。無論人工智慧的未來會怎樣，谷歌雲都是我瞭解世界的視窗，而世界正以最快的速度向未來邁進。

我在斯坦福大學度過的每個週五更是突顯了大學與企業之間的差異。隨著我就任新職的訊息不脛而走，我每天都能接到實習申請。這在某種程度上是可以理解的，因為我的學生（偶爾還有教授）只是在盡力建立人際關係網。不過，讓我擔憂的是，我和他們的每一次談話，無一例外都以同樣的請求結束：在他們看來，最有趣的研究是不可能在私營實驗室之外實現的。即使在斯坦福大學這樣的地方，預算也不夠多。事實上，預算往往還差得遠。企業研究不僅是更有利可圖的選擇，而且正在越來越成為唯一的選擇。

最後就是資料。資料是谷歌整個品牌建立的基石。imagenet讓我第一次看到了大規模資料的驚人潛力，也奠定了我此後幾乎所有研究的理念基礎。我和喬恩一起研究了幾十年以來的汽車模型，和安德烈一起研究了大量圖片和相關說明，和蒂姆尼特一起研究了整個美國的街景影像和人口普查局的記錄——資料量不斷增長，人工智慧的能力也與日俱增。現在，我被資料環繞了，不僅豐富程度難以言表，所涵蓋的類別也超乎我的想象：來自農業企業的資料，他們希望可以更好地瞭解植物和土壤；來自媒體行業客戶的資料，他們希望谷歌可以幫助他們整理內容庫；來自制造商的資料，目的是減少產品缺陷；等等。幾個月過去了，我穿行於兩家最有能力為人工智慧的未來做出貢獻的機構之間。這兩家機構都人才輩出，極富創造力和遠見卓識。兩家機構都在科技史上有著深厚的根基。它們甚至可以從同一條高速公路進出，在國道101上只相隔幾個出口。然而，行業准入壁壘宛如一座大山高聳在地平線上，峰頂遠高於雲層，在知名高校和頂級私企之間，似乎只有一方擁有足夠的資源來適應這個時代。

我的思緒不斷地回到那800個gpu上，它們在應對一個教授和她的學生們無法想象的計算任務。如此多的電晶體，如此巨大的熱量，如此鉅額的資金。「疑惑」這樣的字眼並不能表達我逐漸感到的驚懼。

人工智慧正在成為一種特權，一種排他性極強的特權。

從imagenet時代開始，規模的重要性就已經顯而易見，但近年來，「越大越好」的觀點幾乎被賦予了宗教般的意義。媒體上充斥著城市街區大小的伺服器設施的圖片，關於「大資料」的討論永無休止，不斷強化著這樣的觀點：規模是神奇催化劑，是機器中的幽靈，可以將人工智慧的舊時代與令人窒息的夢幻未來區分開來。雖然相關分析可能會有些簡化，但本質上並沒有錯。沒有人能否認，神經網路確實在這個資源豐富的時代蓬勃發展：驚人的資料量、大規模分層架構和大量互聯的矽片確實帶來了歷史性變化。

這對科學意味著什麼呢？如果我們的工作秘訣可以簡化為赤裸裸的量化，簡化為蠻力制勝，那麼努力思考和創新又有什麼意義呢？如果一些想法在層數太少、訓練樣本太少或gpu太少的情況下似乎會失敗，而在數量增加到足夠多的時候突然又可以高效運轉，那麼對於演算法的內部運作機制，我們又能得到什麼教訓呢？我們發現自己越來越多地從經驗角度觀察人工智慧，就好像它是自己出現的一樣，彷彿人工智慧是需要先識別、後理解的東西，而不是根據第一原理設計產生的技術。

我們與人工智慧之間的關係正在發生轉變，對我這樣的科學家而言，這樣的前景令人深思。在谷歌雲的新職位上，我可以鳥瞰越來越依賴於各個層面技術的世界，但我們不能坐而論道、驚歎於一切的神奇。這種奢侈我們負擔不起。新一代人工智慧所能做的一切，無論是好是壞，無論是在預期之內，還是在意料之外，都因其設計本身缺乏透明度而變得複雜。神經網路的結構本身充滿了神秘色彩，它是由微小的、權重微妙的決策單元組成的巨大集合體。這些決策單元孤立地看毫無意義，但以最大的規模組織起來時，卻強大得令人咋舌，幾乎無法為人類所理解。我們可以從理論的、抽象的意義上談論神經網路：它們能做什麼，它們達到目標需要什麼樣的資料，它們訓練後的效能特徵大致在哪個範圍；但從一次呼叫到下一次呼叫，它們在內部到底做了什麼，卻是完全不透明的。

由此帶來的後果特別令人擔憂，這就是一種被稱為「對抗攻擊」的新型威脅。在對抗攻擊中，輸入內容的唯一目的是迷惑機器學習演算法，以達到反直覺甚至破壞性的目的。舉例來說，一張照片看上去是描繪了某種明確的事物（比如藍天下的長頸鹿），但可以通過單個畫素顏色的細微變動進行修改。儘管這種畫素顏色的變化是人類肉眼無法察覺的，卻會在神經網路中引發一連串的故障。如果對抗攻擊設計得當，雖然原始影像看起來沒有任何變化，但演算法會把「長頸鹿」這樣的正確分類變成「書架」或「懷錶」等錯誤分類。先進技術無法辨認野生動物照片的場景可能會讓人覺得好笑，但如果對抗攻擊的目的是愚弄自動駕駛汽車，導致汽車對停車標誌，甚至人行橫道上的兒童進行錯誤分類，就絕對不能用好笑來形容了。