第十一章 千猜萬判鑄一智

1999年6月21日,棋賽開始。俄羅斯棋王執白子,首先挪動了他的「國王」。在24小時的懸念之後,大眾隊做出了回應:一招「西西里防禦」,給出了對卡斯帕羅夫開局的最佳回擊!大眾隊看來不是外行,主辦方放心了。讓對決繼續吧!

這一盤棋下得高著兒迭出。業餘大眾隊不僅玩得十分專業,還不乏出其不意的奇著兒。比如他們走的第10步,在高水平國際象棋賽事中前所未見,足以載入史冊。那一步究竟是斷送勝利的爛著兒,還是大眾創造出的神來之筆?實際上,這步棋事後被卡斯帕羅夫本人贊為「卓越的理論創新」,也成為後來國際象棋比賽中常用的著數。很明顯,從這一步開始,大眾隊佔了上風。然而棋王終究是棋王,沒那麼容易扳倒。在連續4個月的艱苦廝殺之後,棋王卡斯帕羅夫僅餘3子,下出了他的第64步……將!

大眾隊可謂雖敗猶榮。他們不僅一直與棋王不相上下,還創造了新的國際象棋經典招式。「烏合之眾」的判斷遠遠超出我們的預期。

研究者們的注意力越來越多地轉向更實際的問題,比如依靠綜合數十人給出的解決方案,來尋找困難問題的最優解。我的一部分同事走得更遠,甚至開始專門關注「醫生群體的智慧」。同事們的研究顯示,在一系列臨床問題上,諸如患者是否需要手術,或者乳腺超聲檢查是否真的查出了癌細胞等,情況就像網路大眾隊與棋王卡斯帕羅夫勢均力敵那樣,一群醫科大學生的綜合判斷似乎比一位經驗豐富的專科醫生的個人判斷更為準確。

我們今天正逐漸認識到這一現象的內在邏輯:它並不屬於哲學或心理學的範疇,而是一個機率論和統計學的現象。事實上,對於上述無論哪一類「挑戰」,大家對正確答案都有一個模糊的想法。當然他們會出錯,估計得太高或太低,但如果樣本量足夠大,個人之間的誤差會相互抵消,讓人們思維中的共同之處凸顯出來,從而得出接近正確答案的估計。

要把這個現象視覺化,不妨想象一下擲飛鏢遊戲。一大群人一起玩飛鏢,當然是有的人甩高了,有的人扎低了,有的人偏左,有的人偏右。但這些飛鏢落點的平均值還是會相當接近靶心。那些誤差彼此抵消了。即便你喝醉酒又蒙著眼,投出了幾次極差的成績,最終的平均落點也不會離正中太遠,畢竟所有玩家投飛鏢時瞄準的都是靶心。在這種情況下,人多勢眾確實勝過專家的單槍匹馬。假如你約上20來個朋友,就能輕易擊敗荷蘭的世界飛鏢冠軍邁克爾·範格文(michaelvangerwen),前提是裁判同意讓大眾隊每人投一次,然後求平均值。

然而,並不是所有情況下「烏合之眾」都最聰明。首先,參與群眾得對問題的解決方向有基本的直覺才行。還是以飛鏢來舉例,如果群眾隊中的成員根本不知道靶心在哪兒,那他們的飛鏢將完全是隨機投出的,即使求落點的平均值也沒用。真正關鍵的因素還在於,群眾不能都犯一樣的錯,必須錯得花樣百出才行。如果所有沒扎準的鏢全在靶心的左邊,平均落點也會向左偏移。只有當扎歪的飛鏢分佈均勻,平均值才可能在中間。這就是斯科特·佩奇(scottpage)著名的「多樣性預測」定理:判斷的多元化,包括錯誤的多樣性,是「群體的智慧」生效時必不可少的因素。

不幸的是,多樣性這一關鍵因素恰恰是相當脆弱的,它的頭號敵人就是我們前面研究過的人際網路中的社交影響力。同樣的競猜遊戲,如果個人在發表各自的估計之前有機會先跟別人討論上5分鐘,那麼大多數人的判斷都會趨向同一種錯誤。就好像有的飛鏢上裝有磁鐵,當其中的一枚接觸飛鏢盤後,其他的飛鏢全都會朝著它的方向偏,從而失去錯誤的多樣性。社交影響力的負面效應可以表現得很快。近來有大量的研究證明,一個小小的暗示就足以讓大眾判斷的平均結果偏離正確答案。這就是為什麼我在日常生活中從來都沒辦法向朋友們證明「群體的智慧」有多妙;不管我如何三令五申不能跟其他人透露自己的猜測,在我說完題目的那一秒鐘,總有那麼一位缺心眼兒的朋友直接喊道:「埃菲爾鐵塔?至少得有500米吧?」這下誰也玩不成了。因為他的這個小小提示會在其他人的腦海裡深深紮根,把整群人的平均預測值帶離正確答案。

當大眾也找不著北

在網路的世界裡,求大眾觀點的平均值已經成為一種流行做法。亞馬遜、貓途鷹(tripadvisor)、谷歌+等眾多網路聚合平臺都採用類似於「群體的智慧」的模式,邀請網民到自己的網站來評價產品,然後通過權重演算法得出一個集體的評分。通常,藉助從一星到五星的量表,使用者就能對一本書好看不好看,一雙鞋子舒服不舒服,一款相機的畫素如何給出自己的感受,並讓其他網民知道。

這個做法如今變得如此普及,是時候把它當作一個社會現象來認真研究了。今時今日,什麼都可以評分。喜歡昆汀·塔倫蒂諾的新片?去電影網站allociné給個五星吧。覺得某家酒吧的氣氛有點悶?上餐館點評網站yelp給它打個三星。覺得這個蘋果撻的食譜實在太甜了?立刻上食譜網站marmiton給個一星差評。

人也可以打分。不管是你的數學老師,還是上次跟你拼車的同路人,是你家附近的麵包店師傅,或是你的一夜情物件……誰都逃不開。連私人醫生也不能倖免!谷歌+上,那些被評為「冷漠」「粗心」「毫無同情心」的大夫會立刻被判低分,而另一些「熱情又有能力」的大夫會得到五星好評。雖說國家醫師協會理事會始終不認可這套評分系統,那些鑽牙時下手太重的牙醫照樣會在網上得零分。

評分體系如今無處不在,舉足輕重。因為群體判斷在網路上公開後,一件商品能否暢銷,或者服務能否得到認可,網民的打分很關鍵。他人對網民個體的打分也是如此。那些得到差評的個體很容易失去他人的信任,下一次去度假時,很可能在愛彼迎(airbnb)上找不到房子,在優步(uber)上也叫不到車。美國專門給飯店、酒吧評分的網路平臺yelp,現已變成普羅大眾的米其林指南。大眾只要用手指輕鬆點選,就能決定哪家飯店火爆,哪家飯店破產。商戶在這個網站上每上漲或降低一顆星,營業額就會增加或損失10%。如果湯裡掉了一根頭髮,或者服務員像門神一樣凶神惡煞,那麼飯店要小心了。網民們可不會客氣。

你可能會問,這有什麼問題?科學不是已經完美證明了群體智慧有用而且集體判斷值得參考嗎?事實並非如此,因為社會影響力依然存在。比如錫南·阿拉爾的團隊做過一個讓網民評價他們對網路新聞感興趣程度的實驗。實驗者隨機抽取了10萬條新聞,每篇文章剛發出來,科學家就先上去給它打上第一個分數。結果顯示,如果首條評價是肯定的,這則新聞的總平均分會升高25%,不管隨後跟進了多少真實的網民評價。這是因為網民打分前都習慣先看看前人打的分,難免會受先前意見的影響。「從眾效應」的強大之處在於,不管被評價物件的真實水平和質量到底如何,只要第一個「假評」是好評,後面的人也更傾向於給好評。

另外,使用者間心照不宣的「互賄」心理是使評分系統失衡的另一個因素。在一個人人互評的世界裡,為了給自己換回一個好評,還有什麼比先給對方一個好評更有效呢?在優步上,司機跟乘客之間要互評;在愛彼迎上,房客跟房東互相打分。在北美的一些中學裡,老師給學生的分數寫在成績單上,而學生給老師的分數體現在「評師網」(ratemyprofessors)上。在這種情況下,也許老師在給學生的家庭作業打分時高抬貴手,就會使自己的網評多一顆星。事實上,2002年的一項研究顯示,美國高校出現了普遍高分的現象,部分原因確實在於引入了學生給教師打分的系統。簡單來說,我們每個人都有小辮子在別人手裡,膽敢第一個打差評的人,就等著受到報復吧。

鑑於評分系統已遍佈網路,無處不在,某些網際網路企業趁機在網路上推出了一種「聚合通行證」。比如2015年成立的法國初創公司famust把個人在不同網站上得到的分數集中起來,給每個人製作出一套社交聲譽證件。最終我們可以依此獲得任何人的性格綜述:讓·克勞德,谷歌+得分4.3的敬業藥劑師,網約車軟體blablacar得分4.2的好司機,下廚軟體marmiton上的4.7星大廚,不過,他對追女人可不大在行,在交友軟體tinder上只有1.5分。這不禁讓人想起英國電視劇《黑鏡》的一集,未來城市的居民們在每一次互動後都互相評分。這個反烏托邦故事描繪了社會聲譽不斷惡化的主人公是如何一步步墜入地獄深淵的,意在警醒我們小心此類系統的濫用。

然而peeple等應用軟體的開發者似乎對此充耳不聞。2016年peeple上架,專用來給你身邊的人打分。鄰居太吵,可以給兩星。本區郵遞員和藹可親,給五星。在手機應用商店裡,peeple自己收穫了百餘條評價,平均得分慘不忍睹:1.7星。看來,普羅大眾的肩膀上頂著的並不是擺設。

藝術和文化領域的情形又是怎樣的?如果人們評頭論足的物件不是一家飯館或者一個司機的服務,而是一部電影、一本書或者一首歌,他們的集體判斷又會不會失之偏頗呢?或者換個問法:單曲《江南style》曾一舉登上youtube觀看次數最多影片的寶座,是不是意味著這是一首傑作而必將載入史冊呢?

鄧肯·瓦茨的團隊從2006年起就投身於這個問題的研究了。他們模擬了網際網路音樂市場,建立了一個叫「音樂實驗室」(musiclab)的網路平臺,在上面放了48首專業團隊製作的音樂作品,都是首次面世的新作。之後,他們邀請15000名網民來聽音樂並打分,以及免費下載他們喜歡的那些。

實驗分了好幾個階段。第一階段,聽眾在不知曉旁人好惡的前提下先做出獨立的判斷,結果這48首曲子的得分都差不多,並沒有特別突出的。第二階段,曲子還是那些曲子,不過聽眾換了一組,而且在聽每首曲子之前,他們能先看到別人對音樂的評價。只需要這一步改變,就能使48首中的一首單曲脫穎而出,成為這個小社會里最受人喜歡的流行歌曲了。

照這麼看來,評分系統真的能幫助消費者識別市場上的最佳產品嗎?當上述實驗做到第三階段,結論很快引起了我們的擔憂。在實驗者換上新一組聽眾之前,這48首曲子的既往評分被清零了。這一次又產生了48首曲子中的當紅歌曲,但和上次的不一樣。實驗不斷重複,每一次都將前一輪的結果清零。於是,人們就會愛上一首不同的歌。似乎音樂本身的品質對於獲勝歌曲來說根本不重要,大眾每回都隨機捧紅一支曲子,把它推到流行榜首。人們被各類社交資訊淹沒,失去了審慎分析的能力。

不過根據研究者們的觀察,被選中的當紅歌曲並不是完全隨機的。不管實驗怎麼做,最好的那些音樂從來沒跌到谷底,最難聽的那些也沒能登上榜首。但在保持這種大趨勢以外,任何結果都是有可能的。

以上你所瞭解的只是冰山一角而已。事實上,大眾研究的這一細分領域才剛起步,但在短短的20年時間裡積累的知識已經多到令人頭暈目眩。新的群體智慧模型正在形成,可以預見,它們將很快被應用到你的日常生活中。投資者們個個摩拳擦掌,大眾研究早已引起市場的興趣。