我看見的世界：李飛飛自傳 12 下一顆北極星

「你知道嗎，」我開始說道，「我當學生也不是太久以前的事，但那會兒，讓計算機區分辨小貓和小狗都幾乎還是科幻小說的情節。然後，深度學習在一夜之間改變了一切，我們的演算法被用於我們曾經認為還需要幾十年才能實現的領域。想想看，我們現在有多少人在談論面部識別。記者、政客、活動家……突然之間，他們都提出了問題，而且都是好問題！這一切會導致更多的監控嗎？會帶來更有偏見的演算法嗎？甚至會導致人工智慧武器的問世嗎？一切都來得太快了。」

我們到了實驗室。我在讀卡器上刷了一下門卡，我們推開雙扇門走了進去。

「我想說的是，」我總結道，「事情的變化可能會比你想象的要快得多。」

我知道我沒有說服他，或者說沒有完全說服他。雖然他心存疑慮，但還是很關注這個問題，一直在聽我講。願意傾聽就是一個好的起點。

新入行的人產生懷疑情緒是很正常的。但在實驗室裡，以人為本的精神隨處可見，白板上還留著前一天晚上的專案筆記，這個專案的目標是在保護資訊所有者隱私的同時，利用敏感資訊對神經網路進行訓練；另一個類似的專案則是在不影響最終模型有效性的前提下，將影像資料集中的人臉進行模糊處理。

我們甚至也開始用批判的眼光審視自己的研究成果。imagenet包含了我們最初從網際網路上搜羅的數百萬張照片，我們通過研究，對資料集吸收的偏見（包括種族、性別和性取向）進行量化。在研究結果的指導下，我們替換了大量圖片，以更加平衡地展現人類群體的全貌，並刪除了具有冒犯性的類別標籤。

也許最鼓舞人心的——至少對我來說——是我們的工作從未如此貼近現實世界。一位初級研究員的機器夾不起吐司固然令人遺憾，但除此之外，這十年來，機器感知領域的復興已經從根本上改變了機器人技術，現在已經很難將其與人工智慧本身區分開來。彷彿是為了說明這一點，金屬長凳上擺了兩條光滑的機械手臂，它們的名字非常親切，一個叫作「查理」，一個叫作「艾達」，正在耐心地等待下一次訓練。如今，它們就像任何演算法一樣，已經成為我們實驗室工作不可或缺的一部分。

當然，硬體再先進、再亮眼，也只是達到目的的一種工具。因此，我們工作的指導原則依然關注人類的福祉，而不僅僅是追求程式的效率。這就是我們與數字經濟實驗室合作背後的理念。數字經濟實驗室是斯坦福hai下屬的成立不久的研究小組，這個小組利用美國勞動局的調查結果，以更好地瞭解人們對於自身工作價值的看法：他們在哪些方面歡迎自動化帶來的便利，在哪些方面認為自動化的滲透具有威脅性，甚至是非人性化的。我首次意識到這種區別，是在跟阿尼一起研究環境智慧的時候。我認識到，人工智慧應始終致力於提高人類的能力，而不是與人類競爭。現在，這一理念成為我們實驗室的基本價值觀。這種價值觀究竟意味著什麼，這是每個研究人員都要自己回答的問題，但令人振奮的例子比比皆是。例如，我們實驗室最重要的工作之一，就是對住宅、辦公室和醫院等日常空間進行極其細緻的三維建模，而每個空間都有各種不同的種類、平面圖和風格。我們努力讓演算法沉浸在人們生活和工作的環境中，沉浸在智慧機器可能發揮最大作用的應用場景中，尤其是幫助身患疾病和殘疾的人群。一個相關專案通過使用虛擬現實頭盔和運動跟蹤手套，幫助研究人員捕捉有形、有意義的任務（如疊衣服、準備食物等），並對動作進行數字編碼，由此建立評估機器人效能的基準。還有一項研究探索了新的機器學習方法。研究人員設計出了具有天生好奇心的數字代理機器，並將其置於鼓勵它們玩耍的虛擬環境中，因為玩耍是兒童與周圍環境建立直覺聯絡的重要方式。

每一個故事都代表著一個變化——我們對資料的看法發生了變化，對資料的期望也發生了變化。我們曾經試圖給演算法類似百科全書式的意識，希望演算法可以識別所有的類別和事物，而現在，我們的目標更為廣泛。我們想對萬事萬物所蘊含的空間、時間甚至意義有更深入的瞭解。我們的目標不僅僅是數量上的增加，還有細節和細微差別的擴充套件。新的資料處理方法不僅僅是簡單的整理和編目，而是要模擬整個環境，模擬在環境中展開的行動。這就是為什麼隨著技術複雜性出現爆炸式增長，我們研究背後的人本主義也在不斷發展。要形成對現實生活的整體觀，為了創造比以往任何時候都更加真實的世界表徵，我們需要深度和保真度，而在我看來，即使目前最先進的技術也達不到這種需求。因此，我們再次熱血沸騰，迎接挑戰。我們再次需要進化。

當然，進化的確切形式仍是個謎，但耐人尋味的蛛絲馬跡已經初露端倪。隨著進化所需的資料集規模日益增長，組織足夠的人力所涉及的成本、時間甚至倫理問題不斷增加。近年來，更具影響力的發展之一是出現了越來越多的模型訓練新方法，這些方法可以突破人工整理資料集出現的瓶頸。模型的資料處理能力主要包括模型規模、並行操作的能力，以及自主識別有用模式的能力（文獻中稱之為「注意力」）等方面。模型在資料處理方面的進展使得用大規模資料集進行訓練成為可能。有時，資料集的規模甚至構成了網際網路的很大一部分。以文本為例，訓練資料通常包括整個維基百科、各大圖書館的書籍和學術期刊，甚至是像reddit這類線上論壇的歷史帖子。在對每個單詞、空格和標點符號進行分析之後，就可以生成人類語言的統計模型。這個模型是如此龐大，卻又如此濃縮，只需要簡短的提示，就可以讓想法的種子變成茂密的參天大樹，將一句話（無論是問句、陳述句還是對話）擴充套件成一篇洋洋灑灑的生動散文。這些模型現在通常被稱為「大型語言模型」（largelanguagemodel，llm），其所呈現的語句極為流暢，與人類的語言能力驚人地接近，讓讀者很容易忘記自己閱讀的文字其實並不是真人寫的。

經過多年的計算機視覺研究突破，大型語言模型正在推動自然語言處理的復興，也很可能預示著人工智慧的下一個偉大時代即將來臨。具體而言，一種稱為transformer的新型機器學習模型成為自2012年的alexnet以來神經網路設計中最大的進化飛躍。transformer具備了所有讓大型語言模型成為可能的必要特性：規模龐大，通過處理大量並行資料塊來加速訓練，並擁有極其複雜的注意力機制。不管怎麼看，transformer都是一個里程碑，甚至可以說是一個轉折點；它一經發布，就立刻展示出了驚人的能力，甚至連其背後的專家們都感到震驚，而這些進展至今都沒有放緩。

初次接觸到由大型語言模型生成的文本時，我感到非常超現實，不禁想起了當年與安德烈合作開展的研究。當時，我們看到人工智慧寫出一個完整的句子來描述自己看到的東西（儘管措辭略顯笨拙），是多麼興奮啊。而僅僅幾年後，演算法已經成為文筆流暢的文字大師，可以回答問題、編寫故事，甚至還能解釋笑話。更重要的是，新興的「多模態」網路不僅限於在文本上進行訓練，還可以利用照片、音訊、錄音甚至影片進行訓練，從而學會了生成不同形式的媒體內容。這種進展常常讓人感覺比計劃提前了一兩代；在短短十年左右的時間裡，演算法已經從難以識別照片內容，發展到以超人水平進行識別，現在甚至可以創造全新的圖片——這些圖片看起來跟真實的攝影作品無異，但完全是合成的，並且往往具有驚人的逼真度和細節。看起來，深度學習時代似乎已經讓位於一場新的革命，生成式人工智慧時代即將來臨。

即使對我來說，生成式人工智慧也經常看起來就像魔法一樣。而這項技術的核心再次展現了大規模資料的力量。可以肯定的是，「規模」是其中的關鍵詞。alexnet首次亮相時，網路引數為6000萬個，剛好足以對imagenet資料集進行合理解釋，至少可以解釋部分子集。相比之下，transformer的引數已經增長到數千億個，足以利用文本、照片、影片等形式的資料進行訓練。這無疑帶來了無盡的工程挑戰，但其中所體現的科學性卻出奇的優雅。從楊立昆的郵編閱讀器、福島的新認知機，甚至羅森布拉特的感知機時代開始，這些可能性似乎就一直在等待著我們的發現。從imagenet時代開始，所有這一切都存在於某個地方，蘊藏著巨大的潛力。我們要做的，只是把一個簡單的想法變得足夠宏大而已。

然而，我越來越感覺到，這樣的解釋只觸及了技術細節，並沒有回答更本質的問題。大型語言模型，即使是多模態的大型語言模型，可能也並不具備真正意義上的「思考」能力。看看就知道了：大型語言模型很容易出現荒謬的概念性失誤，也樂於編造聽起來合理但實際上毫無意義的胡言亂語。瞭解這些事實有助於我們避免過分迷戀模型的能力。然而，隨著大型語言模型生成的文本、影像、語音和影片越來越複雜，真與假之間的界限愈加模糊。越來越多的評論家開始質疑，為我們敲響警鐘：作為個人、機構，甚至社會，我們究竟有沒有能力區分真實和虛構？當人們意識到這一切還只是1.0版本時，這種發問尤其令人警醒。

就這樣，科技不斷發展。演算法語言表達的高階程度已逼近人類水平。機器人正在逐漸學會應對真實的環境。視覺模型不僅可以通過照片進行訓練，還可以在全三維世界中進行沉浸式即時訓練。人工智慧能夠像識別內容一樣流暢地生成內容。與此同時，倫理問題在我們周圍不斷湧現，與人類經濟社會發展的關聯也日益緊密。但這就是科學一直以來的樣子。隨著旅程的展開，前路只會變得更漫長、更復雜。無窮無盡的分叉、不斷擴大的視野、新的發現、新的危機、新的爭論，故事永遠處於第一幕。

曾經，我做出決定，要把自己的一生奉獻給這個鮮為人知的領域；因為這個決定，我比想象中走得更遠。因為歷史的偶然，我這一代人親眼見證了人工智慧從學術奧秘轉變為頭條新聞。我因此有機會周遊世界，與全球的領導者同聚一堂，並在最近幾年中站在最大的平臺上發表演講。耀眼的燈光、絢麗的色彩、一排排的觀眾似乎可以無限延伸到地平線，這些都是難得的特權，每一個都是意想不到的榮譽。

但實驗室仍然是我最喜歡的地方：熒光燈管嗡嗡作響，座椅硬邦邦的，咖啡早就不新鮮了，沒完沒了地點滑鼠、敲鍵盤，記號筆在白板上發出吱吱聲。自從2012年alexnet誕生，自從2006年我和鄧嘉建立imagenet，自從彼得羅把西蒙·索普的腦電圖研究報告列印稿放在我桌上，發生了太多事情。「相信我，這是你想讀的內容。」即使是現在，北極星依然照耀著我前行的道路。旅程仍在召喚，還有更多的目標等待我去追逐。

我時常回想起與彼得羅和克里斯托夫初次見面的情景，當時他們在我心中就是學術巨人。我很難想象有人會把我也看成是那樣的人——單憑我的身材，就可能讓我失去「巨人」的資格。但在某種程度上，我確實有一點兒權威人物的氣場。我的導師們教會了我如何善用威嚴：要將其作為一種感召，而不是障礙。對於每一個願意通過個人努力來到這裡的學生，我想告訴你們：如果你真的對這些事物充滿熱情，無論你是誰，無論你來自哪裡，你都屬於這裡。讓我們共同創造未來！

午後陽光明媚，太陽漸漸西斜，但空氣依然暖和，我們躲在涼亭的樹蔭下，享受著寧靜的時刻。母親靜靜地坐著，滿心歡喜地看著外孫外孫女在草坪上踢足球，他們奔跑著，笑聲、尖叫聲迴盪。父親盡力跟上他們的腳步，和他們一起歡笑，看著就像個年輕人。對以「玩」為畢生追求的父親來說，成為外祖父後，他終於找到了適合自己的節奏——這個角色對他沒有任何要求，他只需要做愛玩的自己就好。

手機震動，我低頭看了一眼，發現是斯坦福hai的政策主管發來的資訊。

國家研究雲剛剛在參議院獲得通過

這是一個更大法案的一部分

即將提交總統

一分鐘後，我又收到一條資訊，是瓊·薩貝拉發來的，還附帶了一段影片。我點選播放按鈕，看到兩雙熱切的小手撕開了配套的包裝紙，露出兩套《星球大戰》樂高套裝，我聽到了興奮的尖叫聲。

「孩子們，你們應該說什麼呢？」我聽到瓊在鏡頭外問道，「謝謝飛飛阿姨和西爾維奧叔叔！」兩個聲音高興地齊聲回答。

鏡頭裡是鮑勃的兩個孫子。他的書呆子氣和想象力顯然延續到了他的孫輩身上。但兩個小傢伙毫無掩飾的喜悅告訴我，鮑勃的內向性格已經消失無蹤。我能想象到，如果鮑勃聽到這樣的話，臉上會露出怎樣的笑容。

結束通話影片後，我回到了群聊，裡面有瓊、她的兒子馬克，還有我。幾年來，我們在群裡分享著個人的生活和成就：重要的里程碑、生日慶祝、膝關節置換手術後的恢復情況、新工作、新寵物、喜悅的訊息、悲傷的訊息，以及生命歲月中的點點滴滴。

在帕西帕尼高中的數學課上，我不安地向鮑勃求助，從此我們的生命開始相交，我的移民生活得以改變。現在，我們兩個家庭橫跨美國，三代人之間依然保持著緊密的聯絡。鮑勃是我的老師、我的知己、我的朋友；在我幾乎無法表達自己的時候，他是我的救命稻草。薩貝拉一家的餐桌上總是擺著自制的布朗尼蛋糕，時至今日，這仍是我受到過最好的同理心教育。薩貝拉一家無疑是我自己家庭的延伸。我無法想象沒有他們的生活，就像我無法想象沒有父母的生活一樣。這就是為什麼十多年後，鮑勃的離去仍然讓我感到心痛。但我們的對話從未停止過，他的記憶仍在傾聽，我仍在向他傾吐心聲。

關於這個國家，讓我學到最多的就是與薩貝拉一家的交往。愛國主義教育從高中就開始了，歷史課上的宏大敘事令人崇敬，卻與移民群體真實生活的淒涼現狀，甚至遭受的暴力形成了鮮明對比，所以這些課程從來沒有真正觸及我的內心深處。幾十年來，我和其他人一樣沉浸在緊張的局勢中，面臨黨派紛爭、文化斷層、選舉週期以及其他一切。我對這個國家最深刻的理解不是來自新聞，也不是來自某個論戰家的專欄文章，甚至不是來自教科書，而是源於有幸結識薩貝拉一家。他們是我在這片土地上最珍視的人道主義典範，他們閃耀著人性的光輝，在我看來，這才是真正的美國精神。

推拉玻璃門發出橡膠摩擦般的吱吱聲，我轉過身來。西爾維奧朝我們走來，手裡空空如也。

「午餐呢？」我半開玩笑地問道，肚子已經餓得咕咕叫了。

「答辯進行了很長時間。」他嘆了口氣，露出毫無歉意的微笑。他知道，我既能分享他的快樂，也能理解他的疲憊。

在過去的幾個小時裡，他在仔細剖析他最新的博士候選人的論文，質疑她的觀點，聽取她的解釋，並最終授予她學位。不難想象，整個過程遠遠超出了預定的時間，西爾維奧被那種熟悉的激情緊緊抓住了。我們兩個都是這樣，一旦激情沸騰，就會久久難以平息。

我又看了一眼手機，發訊息的都是熟悉的名字。最近的聊天記錄裡有奧爾佳和鄧嘉，兩人現在都在普林斯頓大學任教，依然活躍在計算機視覺研究的最前沿。尤其是奧爾佳，她是人工智慧領域公平和透明的堅定倡導者，還把ai4all帶到了自己的新校園。仍在加州理工學院任教的彼得羅也給我發來了資訊，向我介紹他的博士生利用計算機視覺支援全球保護和可持續發展的工作。還有一條來自我十幾年來的研究夥伴和朋友阿尼，他跟我分享了環境智慧的最新進展。

無論我如何界定自己的身份——是華人、美國人，還是名譽上的義大利人——我早已擺脫了對「格格不入」的恐懼，因為我一路上遇到太多真誠的人，他們給了我太多善意。移民之路並不平坦，但我始終心存感激。

即使是母親持續多年的健康問題，也不能簡單地用幸運與不幸來衡量，其背後的故事要複雜得多。不可避免的事情還能拖延多久，才能讓人覺得不再那麼不可避免？近30年的旅程雖然坎坷，但我不得不承認，以不幸家庭的標準來看，我們家是幸運的。生活雖然艱辛，但我們並沒有失去親人，沒有經歷悲傷和哀悼，我們在一起度過了所有的時光，我不禁對此也深懷感恩。

這些天來，我發現自己時常陷入沉思。我經常想起父母的成長歲月，母親被困在自我吞噬的文化中，而父親則迷失在悲劇裡，從來沒有完全解脫。我還記得，當我們登上飛機離開我們熟悉的生活時，我看到母親的雙手顫抖不止；當我們在肯尼迪機場行李提取處等待時，夜幕降臨，我和母親被困機場，父親卻遲遲未到，我們的內心充滿了恐懼；我想起乾洗店裡悶熱的氣息和嗡嗡的機械聲；我想起第一次看到普林斯頓大學的情景。

回顧我的職業生涯，我相信，這段漂洋過海的經歷給我留下了深刻的烙印。然而，直到現在我才意識到，這種烙印將繼續影響我的研究和思考。我想到母親，是什麼樣的緊張局勢促使她孤注一擲、遠走他鄉？而如今，她竟然在位於帕洛阿爾託的自家後院裡安度晚年。科學家的生活與移民的生活和冒險家的生活一樣，對他們來說，「家」從來都不是個明確的概念。最好的作品總是在邊界上誕生，在那裡，思想永遠被困在來去之間，由陌生土地上的陌生人探索，既是局內人又是局外人。但這正是我們如此強大的原因。獨特的身份讓我們保持獨特的視角，賦予我們自由挑戰現狀的能力。

人工智慧的未來仍然充滿不確定性，我們有很多理由保持樂觀，也同樣有很多理由感到擔憂。但一切都源於比單純的技術更深層次、更有影響的問題：在我們創造的過程中，是什麼在激勵著我們的心靈和思想？我相信，這個問題的答案也許比其他任何問題的答案都更能決定我們的未來。很多事情都取決於問題由誰來回答。隨著人工智慧領域逐漸變得更加多元、更加包容、對其他學科的專業知識更加開放，我也越來越有信心：我們能正確回答這個問題。

在現實世界中，存在著一顆北極星，那是小熊星座中最明亮的恆星。而在思想的世界裡，卻存在無數個類似的導航指引。每一種新的追求，每一個新的痴迷，都懸掛在黑暗的地平線上，閃爍著耀眼的光芒，向不懈追尋的人們招手致意。這就是為什麼我最大的快樂在於知道旅程永遠不會結束，我也永遠不會停歇。總會有新的事物等著我去追逐探索。對科學家而言，想象力就如同佈滿北極星的璀璨天空。