我看見的世界：李飛飛自傳 10 似易實難

deceptivelysimple

「人工智慧還能做哪些事來幫助別人？」母親在病床上的問題，讓我開啟了醫療服務的環境智慧研究。另外，我開始思考「人工智慧倫理」的議題。

2013年夏天的一個下午，我和西爾維奧正在參加朋友女兒的成人禮。莊嚴的儀式結束了，接著是一場招待派對，西爾維奧想拉著我一起跳舞。音樂剛剛響起，我的手機就震動了起來，真是天助我也——我一向不喜歡在公共場合跳舞。我對西爾維奧做了個手勢，說我得去接個電話（他肯定覺得這個藉口太方便了），然後躲到了外面。

「喂，爸爸，怎麼了？」

還沒等他具體說原因，我就從他的語氣中聽出了問題。

「我覺得你媽媽發燒了。她一直呼吸困難，還說胸口疼。你在哪兒呢？我該怎麼辦？」

我猛吸了一口氣，心驟然沉了下去。這樣的情形我已經再熟悉不過，但每次遇到，依然會感受到巨大的恐慌。母親的身體又出問題了。

二十多年來，我們全家經歷了太多次深夜驚魂和死裡逃生，次數多到我都記不清了。我們在急診室、重症監護室、手術室候診室，還有醫院的其他地方度過了生命中的一個又一個章節。母親十幾歲時就因嚴重的風溼熱引發了心臟病，此後的幾十年一直沒有采取干預措施，任由病情發展。心臟問題是影響母親身體健康的罪魁禍首，就像多米諾骨牌一樣，引發了各種問題，從藥物副作用到我們僥倖及時發現的幾乎致命的腦出血。我和母親一起，費盡周折地輾轉於各種保險機構，尋找各種經濟援助方案，甚至在美國當地治療方案枯竭的情況下，我們還回了趟中國。一路走來，我的角色從十幾歲時的中英文翻譯演變成了類似非官方的個案工作者，尋求專家，安排會診和治療，監測症狀，監督藥物治療和康復計劃，但這些似乎都無法讓病情穩定太久。無論以何種實際的標準衡量，照顧母親的健康都已經成了我的第二職業。

雖然嚴重的威脅接二連三到來，但母親獨特的堅韌始終沒有改變。對我而言，每一場新的衝擊都始終伴我左右，並沒有隨著時間的流逝而減弱，反而成為我生活中固定的基本元素。我的潛意識裡一直在等待下一個壞訊息，而任何壞訊息都可能是最後一個。每當手機螢幕上顯示出母親的名字，我就感到自己的胃在下沉。無論生活把我帶向何方，我都覺得自己永遠處於一種脆弱的狀態。

又經歷了兩天旋風般的就診，最近一次磨難終於告一段落。發燒導致心跳波動加劇，可能是流感所致。雖然症狀嚴重，但好在沒有危及生命。我癱坐在病房角落的塑膠座椅上，本能地開啟筆記型電腦。有那麼幾分鐘的時間，我敲擊鍵盤，全情投入工作。在這樣的時刻，熱愛自己工作的價值難以言表。但我忽然感覺有點兒不對勁，周身彷彿有一種刺痛感。

是有人在盯著我看嗎？

我從電腦螢幕上方瞥過去，發現母親已經醒了。她的確在注視著我。

「你怎麼樣了？」我問道。

我看得出她心裡有事，但我知道，她並不是在考慮自己的健康問題。

她又思考了片刻，說：「飛飛，你到底是做什麼的？」

母親的這個問題實在太奇怪，我不由得放聲笑起來。

「什麼？」我一邊笑，一邊努力認真回應，「你問我是做什麼的，你是說靠什麼賺錢嗎？」

「我知道你是科學家，研究大腦還是電腦的，但這麼多年，我們都沒有討論過你是哪種科學家。你爸爸說你是‘瘋狂科學家’，但我敢肯定，不完全是這樣。」

平日裡一向嚴肅的母親竟然開起了玩笑，也許我應該叫護士過來——畢竟護士叮囑過我，如果出現任何異常情況，就要立即呼叫她。

「沒錯，我不完全是瘋狂科學家。」我笑著說，想了想她的問題。

笑歸笑，但她說得沒錯。這麼多年來，我一直把她當病人看待，習慣了把工作上的事情壓在心底，很少與她交流。現在我想，我是否忽略了她的其他方面。即使穿著病號服、輸著液，母親仍然是那個善於思考的「教唆者」。於是，我開啟了話匣子，從頭開始講起。思維的奧秘，物體分類在視覺理解中的重要性，imagenet，圖形處理器，神經網路的爆炸式發展，視覺研究領域突然瞬息萬變。母親側耳傾聽，看似認真，卻帶著像母親逗弄咿呀學語的孩子般的神情。感覺有點兒不對勁。

「我聽不太懂。」她停頓了一下說，「聽著像科幻小說。」

我不應該感到驚訝。她很聰明，知道我在說什麼，但她對科學本身從來不感興趣。她喜歡從故事和人物的角度思考，喜歡激情和衝突。我決定即興發揮。

「你知道，還有一兩個小時，我們就能出院了，但你還需要幾天的恢復時間。要是沒有我、爸爸、西爾維奧或是其他人的陪同，你就沒辦法外出辦事。但是，如果不靠我們，你自己也能出門，你覺得怎麼樣？」

「你是說坐公交車嗎？」

「不是。就算是往返公交車站對你來說也會有些困難。我說的是有一輛能自動替你駕駛的車，從家門口接你，送你到達目的地，這一切都由它來完成。」

自動駕駛汽車領域的炫酷品牌waymo和cruise等還有幾年的時間才會出現，但自從自動駕駛領域的先驅塞巴斯蒂安·特龍離開我們的團隊，將他的專業知識帶到谷歌，我就一直在思考這種汽車。越來越多的媒體關注也增強了我的興趣。塞巴斯蒂安的專案令人印象深刻，他對一輛名為「斯坦利」的大眾途銳進行了重度改裝，使之成為歷史上第一輛成功完成美國國防部高階研究計劃局年度沙漠競賽的純自動駕駛汽車。儘管如此，我也沒想過很快就能在路上看到完全自動駕駛的汽車。在現實世界中，駕駛要複雜得多，我認為短期內幾乎無法實現。不過，我可以利用這個話題，讓晦澀的理論變得更加通俗易懂。

「嗯。」她說，語氣變得輕鬆起來，「對我這樣的人來說，生活肯定會大不一樣。」

接著，她又沉默了幾秒鐘，問了一個看似簡單的問題。

「飛飛，人工智慧還能做哪些事來幫助別人呢？」

我相信，從看到比德曼的數字的那一刻起，我就成了一名科學家，在這個數字的啟發之下，我開啟了職業旅程。母親在病床上的問題好像只是隨口一問，但每次回想起來，我對這個問題都會充滿類似的崇敬之情，因為她的提問給了我機會，讓我成為一名人本主義者。這是我追尋的新目標，其動機遠不止滿足好奇心。我無法預測這條路究竟會通向何方，但我在醫院裡度過了太多的歲月，答案的蛛絲馬跡已經在眼前隱約可見。

現在，我第一次想把我對人工智慧的畢生熱愛與長期照顧他人的痛苦特權結合起來。人工智慧在醫院裡能做什麼？我們創造了能夠以人類無法企及的方式觀察世界的鏡頭，將谷歌街景變成了社會學研究。而在醫療領域，人工智慧會向我們展示什麼？我們設計演算法，把影像變成故事，將畫素轉化為語言和意義。我不禁想問，在醫院這個我們度過了如此多時光的地方，是不是有最需要被講述的故事？

阿尼·米爾斯坦（arniemilstein）博士是醫療領域的傳奇人物。他是斯坦福大學醫學院教授，長期擔任行業顧問，曾是臨床醫生，是專家中的專家。我們見面的時候，他已經將職業重心轉向改善醫院的醫療服務方式，如流程質量、治療效果和患者體驗等，同時降低醫院的運營成本。他的頭髮近乎全白，彰顯深厚的閱歷，但他沒有架子，精力充沛，總是帶著微笑和天然的友善。

我和母親在病房裡討論人工智慧以來的幾個月裡，我一直在思考如何把人工智慧與病人護理結合起來。只要有機會，我就和同事聊天，不管他們來自哪個系。我在所到之處播撒了對話的種子，其中一顆終於生根發芽——一個熟人介紹我認識了阿尼。雖然剛開始交流時，我們都感到雙方的領域差異懸殊，很難理解對方的研究內容，但又都感到了一種親切感。我們都不知道等待我們的將會是什麼樣的合作，但我們都確信未來一定會有合作。為了啟動程式，他邀請我和他一起參加在舊金山北邊舉行的一個閉門演示活動，瞭解飛利浦公司正在開發的遠端醫院監控技術。

在演示室裡，一排護士站在裝有大型平板顯示器的工作站前，飛利浦公司的代表走到演示室中央：「非常感謝大家的到來。你們即將看到的是我們的eicu技術演示。eicu是用於重症監護病房的遠端監控解決方案，雖然目前還處於概念驗證階段，但我們已經開始在一些醫院進行試點。」

我意識到，螢幕上顯示的是重症監護病房病人的即時畫面，影片上顯示了病人生命體徵的多個維度，護士可以隨時在顯示器前觀察。一旦發現危險或異常情況，她們可以通過按鈕面板立即通知現場人員。

「沒有人願意面對醫療護理中的失誤，但這些失誤對病人構成了持續的威脅。感染、手術工具放錯位置、藥物混淆、劑量錯誤，甚至是老年患者摔倒這樣簡單的事故，都會造成嚴重的後果。類似的錯誤不勝列舉。」

太可怕了。下次我在候診室裡等待的時候，更會忍不住胡思亂想了。

「可悲的是，這些失誤每年造成美國約10萬起死亡事故，其中大部分是完全可以避免的。」

等等，什麼？我的大腦突然一片混亂。每年10萬人死亡？都是失誤造成的？

「有一種特別危險的錯誤就是病人在重症監護室中長時間無人看護。eicu是防止這種錯誤的第一步，它使得規模更大、地理分佈更廣的團隊可以更密切地關注醫院裡最脆弱的群體。」

這是個好主意，但我無法不去想剛剛聽到的數字。

10萬。這個數字在我腦海中不斷重複閃現。

「飛飛，這就是我所說的醫療保健‘黑暗角落’的一個例子。」阿尼湊過來低聲說道，「不管是在醫院、老年護理機構、手術室還是其他地方，都會有病人逃過臨床醫生的關注。」

我想起了躺在病床上的母親，想起了我每晚剛進家門的例行事務，我擔心會不會發現什麼跡象，表明我不在的時候她的病情惡化了。

阿尼繼續說：「這是我們努力解決長期存在的一個問題。在醫療行業，幾乎每個人都超負荷工作，大家都精疲力竭了。在某種程度上，過去幾十年來為他們打造的所有技術都是在幫倒忙，因為現在他們也被資訊淹沒了。這是一個危險的組合，太多病人因此錯過了最佳治療時機。」

演示非常完美，讓人印象深刻，但在演示結束後很長一段時間，我的焦慮感依然揮之不去。

電梯門關上時，我說：「我腦子裡就是忘不了那個數字。」

「每年10萬人死亡嗎？」阿尼回應道，「在過去的一二十年裡，這個數字一直是激勵我工作的最大動力。」

為一個具體數字無限痴迷——阿尼和我的共同點比我想象的要多。

「我有個問題要問你。」他繼續說，「想象一下，在任何醫院、養老院，甚至是家庭護理專案中，當護理人員查房時，他們想要達成什麼目標？」

我想起了在我母親住院期間查房的醫生和護士，他們中的許多人似乎只是檢查了一兩分鐘，就匆匆趕往下一個任務。

「要跟病人有面對面的時間？要注意自己的臨床態度？」

「這些當然要有，但想得再簡單些。」

「我不知道，難道只是過來看看？」

「你說對了。他們在盡最大努力關注到每一位需要照顧的病人。但即使他們夜以繼日地工作，真正面對每個病人的時間又有多長呢？病人的大部分時間都是無人監控的，這一點難以避免。」

「是事故都發生在沒有人監控的時候嗎？」我問道，「這就是每年有10萬人白白死亡的原因嗎？」

我停頓了片刻，試圖理清頭緒：「聽起來，這些事故有一個共同點，那就是注意力。察覺。」

「沒錯，察覺就是關鍵所在。在整個醫療領域，察覺是最寶貴的資源，也是我們沒有辦法擴充套件的資源。」

我感覺自己彷彿又回到了紅門咖啡館，與彼得羅和克里斯托夫一起思考視覺體驗。我想到了索普的腦電圖讀數、比德曼的攝影實驗，還有坎維舍繪製大腦皮質解剖圖的嘗試。但我想的最多的還是特雷斯曼，還有她研究的核心觀點：場景越混亂，理解場景所需的時間就越長。這個觀點發人深思：在醫療行業，醫生疲憊不堪，匆匆經過洗手檯卻沒有認真洗手；護士分身乏術，沒有注意到虛弱的病人馬上就要跌倒。我的很多研究都圍繞著感知的本質：感知從何而來？有什麼作用？有什麼潛力？而直到遇到阿尼，我才開始真正意識到感知的巨大價值。

「不好意思，」我停了一會兒說，「這些數字讓我有點兒震驚了。」

演示會幾周後，我去了阿尼的辦公室，繼續我們的討論。我們翻閱了《人無完人》（toerrishuman）。這本書出版於2000年，對醫院環境中的醫療差錯進行了全面調查，其中揭示的真相令人深感不安。作者得出的結論是，每年因規程和注意力方面的失誤而導致的死亡人數超過了因車禍、乳腺癌和艾滋病這些眾所周知的原因而逝去的生命數量。

「是的，需要花一些時間來理解和消化。」

不過，這是必要的練習。自從看完eicu的演示後，我們的談話就沒有停止過，興奮之情也與日俱增，因為我們決定開展一個小型研究專案。這是我們第一次正式開會討論計劃。

「我建議我們從這個開始。」阿尼說著，用食指指向靠近頁面底部的一個段落。

根據美國疾病預防控制中心的說法，「洗手是預防感染傳播的最重要手段」，即便在今天也依舊如此。然而，反覆的研究表明，在經歷了150多年的發展之後，不洗手或洗手方法不當仍然是造成醫療環境中疾病傳播的重要因素。

洗手問題可能聽起來稀鬆平常，但相關問題仍然是醫療服務面對的嚴峻挑戰。據美國疾病預防與控制中心估計，護理人員在每天巡查的過程中需要洗上百次手，每換一個病人、換一項任務，都需要洗手。鑑於人為錯誤的頻率和性質，即使在最好的情況下，偶爾出錯也在所難免。但隨著輪班時間越來越久，壓力和疲勞會不斷加重，因而導致風險大大增加。最終，一部分錯誤會導致感染（正式名稱是「醫院獲得性感染」），給患者帶來巨大的痛苦，其程度難以想象。

這個可怕的話題非常適合作為我們研究的起點。在開展醫學研究時，如果涉及正在接受治療的病人，會導致一些棘手的複雜問題。而通過將注意力集中在護理人員（而不是病人）的行為上，就可以避免相關問題。據阿尼介紹，斯坦福醫院的管理層對洗手問題已經研究了一段時間，不少人對新穎的解決方案翹首以盼。

我很快就瞭解到，阿尼是那種使命必達的人。我們結束談話後，感覺剛過了一兩個小時，他就給我發來了訊息，告知我最新進展，而這些進展本身就讓人感覺是不小的成就：打電話找人幫忙，安排與決策者的會面，確保醫院配合研究，等等。在我自己的研究中，我越來越喜歡做規劃，因為合理規劃可以為新實驗奠定基礎，讓我產生一種自豪感。但這是他的研究領域，不是我的，他打了下響指，一切就安排就緒了，我不禁驚歎不已。

不知不覺中，阿尼成為繼彼得羅和克里斯托夫之後我的又一位導師，他們都有共同的特點，就是在尋求解決方案時，可以跨越學科之間的界限。隨著專案的技術層面逐漸成形，我很快也可以做出自己的貢獻了，我非常期待。不過，就目前而言，我很滿足於跟隨一位老手的腳步。再次做學生的感覺真好。

就在阿尼施展魔法的同時，我們也開始意識到挑戰的艱鉅性。最初，我們的目標是開發一種自動化技術，來確保護理人員在醫院內始終如一地徹底洗手。雖然影像分類技術已經成為計算機視覺領域的象徵，但醫院專案對技術的要求比影像分類更高，甚至比我和安德烈一起完成的圖片說明技術要求還要高。這一次，我們的解決方案必須能夠識別特定型別的動作，也就是說，不僅要識別某種物體的存在，還要確定物體的移動方式和動作類別，而且識別準確性需要滿足臨床要求。

棘手的問題比比皆是。首先，「正確」洗手的分類到底是什麼？「正確」洗手肯定不僅僅是確定臨床醫生在洗手檯附近。要確定是不是把手洗乾淨了，演算法需要識別洗手過程中的每一個步驟：靠近洗手池、開啟水龍頭、使用肥皂、兩隻手在水龍頭下搓揉、長時間沖洗雙手等。無論從哪個層面看，這都是我遇到過的最複雜的感知任務。

值得慶幸的是，我們的專案可以找到先例。我的實驗室一直在攻克類似系統所需的諸多基礎功能。例如，安德烈曾與谷歌合作開展研究專案，旨在識別體育錄影中的場景，比如棒球擊球手揮棒擊球，或者籃球運動員運球等。這項分類任務在很大程度上依賴於對動作和行為的識別。我的另一位學生胡安·卡洛斯·尼布林斯（juancarlosniebles）的整篇博士論文的主題就是識別影片中的人類活動。他現在是哥倫比亞北方大學的教授，不久前剛和自己的學生們打造了一個名為activitynet的資料集。顧名思義，activitynet就是類似於imagenet的動作識別資料集，其中包含了數萬個影片短片，每個短片都標註了它們所描繪的身體動作，比如走路、跑步、跳舞、演奏樂器等等。換句話說，儘管我們對於準確分析影片的設想尚未完全實現，但也並非不可能實現：這正是研究的最佳切入點。

我需要一批研究助理，於是像往常一樣，給系裡的研究生們發了郵件。imagenet等專案讓我養成了保持適度期望的習慣，這次也不例外。收到的回覆雖然不多，但數量也算可觀。於是我製作了幻燈片來解釋我們的想法，並安排了第一輪面試。與此同時，我們的專案還需要一個正式的名稱。我和阿尼設想了一種旨在用智慧且可靠的感知來填充空間的技術，而其最大的特點就是不會引人注目。與人類監察員不同，我們的技術將悄然融入背景之中，默默監視，只有在察覺到危險時才會發出警報。我們將其稱為「環境智慧」（ambientintelligence）。

「這就是我們的計劃，醫療服務的環境智慧。」我總結道，「有什麼要問的嗎？」

我只有一位聽眾，就坐在我辦公室的紅色沙發上。他是個特別聰明的雙學位學生，同時在修讀電腦科學和統計學。他正處於攻讀博士學位的第二年，正好在尋找一個更穩定的地方來完成他剩餘的研究。然而，氣氛並不像我希望的那樣輕鬆。之前三位面試者都決定不加入我們的團隊，因此他成了我們的第四位面試者。我盡力掩飾我們士氣低落的事實。

「我的意思是，聽起來超級有趣。」他回答道，語氣足夠真誠。這已經是連續第四個候選人表示我們的設想「超級有趣」——我選擇忽略這一事實。

「不過，我想知道的是，我還能不能在常規渠道釋出成果，比如neurips[注：neurips全稱「神經資訊處理系統大會」（conferenceonneuralinformationprocessingsystems），是機器學習和計算神經科學領域的頂級國際會議。——譯者注]和cvpr之類的。」

「當然。」我笑著說，「我們正在探索許多尚未解決的問題。」

確實如此。雖然醫院並非我們慣常的研究場所，但其中涉及的計算機視覺技術絕對是最先進的。我們正在推進前沿技術的發展，需要識別人類活動，而非靜態物體，這已經是精細的實驗性技術。此外，我們的演算法還將面臨額外的壓力，需要識別異常細微的動作，對準確性的要求很高。與此同時，我們也計劃將物體識別提升到新的水平，因為我們的分類器將不得不應對密集的運動、混雜的背景和模糊的情況。相關工作會異常艱苦，但同時也是建立名望的好機會。

「坦率地說，我們希望能在臨床上產生真正的影響。這意味著我們也要與臨床工作者合作，向臨床期刊投稿，而不僅僅是電腦科學領域的期刊。」

這個學生考慮了一下。「明白。但是，這類期刊的出版週期是多長？」

這是個好問題，因為學術生涯在很大程度上取決於論文發表，尤其是在最初幾年。在他看來，醫學期刊緩慢的出版安排就像一個錨，會在他需要衝刺時拖慢速度。他的擔心不無道理。如果他發表論文的頻率能達到同行的一半，就已經很幸運了。我一邊回答，一邊在心裡暗叫不好。

「老實說，我自己還沒發表過。但我的搭檔米爾斯坦博士說，一般需要一兩年的時間。」

他睜大了雙眼，又停頓了片刻。