《超級預測》讀書報告
書名:超級預測:洞悉思考的藝術與科學(Superforecasting: The Art and Science of Prediction) 作者:菲利普·泰特洛克(Philip E. Tetlock)、丹·加德納(Dan Gardner)
一句話總結這本書
如果你只能帶走一句話,那就是:好的預測不是天賦,而是一種可以學習的技能。 泰特洛克花了二十多年、累積上百萬筆有日期、可計分、被獨立驗證的真實預測,得出一個既謙遜又樂觀的結論——看穿未來確實有極限,但在那道極限以內,任何聰明、開放、肯下苦工的人,都能把判斷磨得比絕大多數名嘴、甚至比握有機密情報的專業分析員還準。重點不在你「是」什麼樣的人,而在你「怎麼」思考。
這份報告會沿著本書的論證骨架走一遍:先談為什麼預測這門「行業」長期停留在前科學時代、像十九世紀的醫學憑直覺與權威而非證據;再談泰特洛克如何用一場大規模競賽把預測「送上檢驗台」,發現了一群「超級預測者」;接著拆解他們做對了什麼——費米估計、外部觀點、機率思維、不斷的小幅更新、永遠的測試版心態;最後處理團隊、領導、以及兩個最有力的反駁。書中最動人的地方,是它一邊建立自己的論點,一邊主動把刀對準自己,問「會不會只是運氣」「黑天鵝會不會推翻一切」——這種對自己的研究下手的態度,本身就是它所宣揚的方法的最佳示範。
一、樂觀的懷疑論者:先定位這本書的態度
泰特洛克替自己貼的標籤是「樂觀的懷疑論者」,這兩個詞缺一不可。
懷疑論者的那一半,來自他對「可預測性硬性極限」的清醒認識。本書開篇用兩個對照人物。一個是出入白宮橢圓辦公室與達沃斯貴賓室的《紐約時報》專欄作家湯馬斯·佛里曼——他能跟總統談中東、跟避險基金億萬富翁與沙烏地王子閒聊,數百萬人讀他的趨勢預測,但他的準確度「從未被嚴謹檢驗過」,只剩下「無止盡的意見、以及對意見的意見」:他料中了阿拉伯之春、他在 2003 年伊拉克戰爭搞砸了、他對北約東擴有先見之明——全是事後的說法,沒有一筆硬資料。另一個是內布拉斯加州凱爾尼鎮的退休前農業部員工比爾·弗萊克,沒人請他上 CNN,他自己也得「Google 一下上海自由貿易區到底是什麼鬼」才能動手,但他的每一個預測都被獨立科學觀察員記下日期、登錄、評分——而紀錄非常出色。泰特洛克尖銳地指出:棒球教練做夢都不會在沒看過績效統計的情況下拿支票簿去簽球員,連球迷都期待在記分板看到數據;但面對那些幫我們做出「遠比任何一場棒球賽重要許多倍」的決策的預測者,我們卻心甘情願保持無知。
懷疑論的理論根基是混沌與蝴蝶效應。書中以 2010 年底突尼西亞的一場悲劇開場:26 歲的小販穆罕默德·布瓦吉吉推著木製手推車到西迪布吉德市場,因為拒絕被勒索、被女警搧巴掌並沒收秤與手推車、到鎮公所申訴又被官員以「正在開會」擋下,於是在鎮公所外自焚。他在 2011 年 1 月 4 日過世,十天後統治突尼西亞 23 年的賓·阿里總統逃往沙烏地阿拉伯,抗議蔓延到埃及、利比亞、敘利亞、約旦、科威特、巴林——這就是阿拉伯之春。泰特洛克的論證很犀利:佛里曼擅長「事後重建敘事弧」,但即使他當天就在現場,也無法預見。阿拉伯世界數十年被形容為「隨時會爆炸的火藥桶」,這話前一年、前十年都能說——「它們可能是火藥桶,但從未爆炸,直到 2010 年 12 月 17 日那個早上」。氣象學家愛德華·勞倫茲 1972 年那篇著名論文〈可預測性:巴西的一隻蝴蝶拍動翅膀,會在德州引起一場龍捲風嗎?〉揭示了非線性系統中初始條件的微小差異會被放大成巨大後果——他十年前偶然發現,把 0.506127 換成 0.506 這種微不足道的差異,竟產生戲劇性不同的長期天氣模擬。這給拉普拉斯「全知之妖」(知道現在一切力量與位置,未來就如同過去一樣確定)的舊夢澆了一盆冷水。諷刺的是,今天的科學家知道得比一世紀前多、運算能力強得多,對「完美預測」的前景反而更沒信心。
樂觀的那一半,來自一個常被忽略的事實:現實裡其實塞滿了可預測的東西。書中描繪一位堪薩斯城婦女的一天:她六點半出門避開尖峰(因為尖峰高度可預測)、預期其他駕駛守規矩、相信紅燈會讓人停下、十點半的電話會議出席者如預期到齊、餐廳公告的營業時間是可靠指引;她任職的人壽保險公司靠精算死亡率活了一百多年,「如果精算師不是好的預測者,它早就破產了」;Google 能把五十年後的日出日落算到分鐘,潮汐、日蝕、月相「連拉普拉斯的預測之妖都會滿意」。可預測與不可預測「尷尬地共存」於同一個世界——泰特洛克強調這些都是「錯誤的二分法」:我們活在一個「有時鐘、有雲、還有一大堆其他比喻」的世界裡。一件事多可預測,取決於你預測「什麼」、預測「多遠」、在「什麼情境」之下。天氣一兩天內相當準,八天後就不如去問擲飛鏢的黑猩猩;恐龍坐穩食物鏈頂端是「延續好幾千萬年都安全的賭注——直到一顆小行星」。
關於那隻黑猩猩——這是本書最有名也最被誤讀的梗。泰特洛克本人就是那個研究者,他要破壞「專家準確率跟擲飛鏢的黑猩猩差不多」這個笑話。他的研究真正顯示的是:專家在「許多」政治經濟問題上做得比隨機猜測好不了多少,「許多」不等於「全部」;而且準確度隨時間拉長而下降,往前看一年最容易擊敗機率,三到五年的預測才接近黑猩猩水平。這個結論在《紐約時報》《華爾街日報》《金融時報》《經濟學人》的複述中,被像傳話遊戲一樣扭曲成「所有專家預測都沒用」、甚至「專家懂得不比黑猩猩多」,成了虛無主義與反智民粹(那些堅持在「專家」前面加「所謂的」三個字的人)的後盾。泰特洛克說他「厭倦了這個笑話」,拒絕站到「揭穿者」那一邊,他相信「看到未來是有可能的——至少在某些情況下、某種程度上」。
本書的第二階段研究,就是 2011 年夏天他與妻子兼研究夥伴芭芭拉·梅勒斯啟動的好決斷專案(Good Judgment Project,GJP)。這是情報先進研究計畫局(IARPA)贊助的大型預測競賽的一部分。IARPA 仿照 DARPA 的模式,讓五支頂尖研究團隊同場較勁,包括密西根大學、麻省理工學院等對手,每天美東早上九點繳交預測。題目時間框架多在一個月到一年之間,四年下來提出了近五百個問題。值得一提的是,IARPA 隸屬於坐在十六個情報機構網絡頂端的國家情報總監辦公室,而美國約有兩萬名情報分析員在評估諸如「以色列是否會突襲伊朗核設施」「希臘是否會退出歐元區」這類問題——這場競賽要回答的,正是這些人有多準。
結果:GJP 第一年比官方對照組準 60%、第二年準 78%,並以 30% 到 70% 的差距領先所有大學對手,甚至超越能存取機密資料的專業情報分析員——好到 IARPA 兩年後直接把其他隊伍砍掉。第一年約 3,200 人通過心理測驗篩選後開始預測,五年下來超過兩萬名志工累積了一百多萬筆判斷,而每季每位志工拿到的報酬只是一張 250 美元的亞馬遜禮品卡。
兩個關鍵結論浮現:第一,先見之明是真實的,像比爾·弗萊克這種人確實擁有「真實的、可衡量的技能」,能判斷三個月、六個月、一年後的事件;第二,關鍵不在他們「是」誰,而在他們「做」什麼,這些思維習慣可以被學習——一份只涵蓋幾個基本概念、約一小時讀完的教學小冊(即書末的「十誡」),竟能讓整年的準確度提升約 10%。AQR 資本管理首席風險長亞倫·布朗形容這種改善「很難看見,因為它不戲劇化」,但日積月累,「就是一個能靠這行吃飯的穩定贏家、跟一個老是把家當輸光的人之間的差別」。
二、知識的幻覺:為什麼我們需要一湯匙的懷疑
第二章是全書的心理學基礎,核心問題是:為什麼「衡量預測準確度」這麼有價值卻這麼少被做?答案藏在「讓我們以為自己知道很多其實並不知道」的心理機制裡。泰特洛克用醫學史作鏡子。
故事從 1956 年的亞契·考克蘭講起。這位後來成為循證醫學奠基者、本身也是醫師的人,被一位大牌專科醫師告知右腋窩「全是癌組織」,醫師說盡了最大努力切除、連胸小肌都摘了,但大概還是救不了他的命。考克蘭順從地準備赴死——他自述「有那麼一刻世界好像終止了」,毫不羞愧地啜泣,隔天卻湧上一股奇妙的平靜就睡著了,還發現來探視的訪客「比我更不自在」。然而病理報告出來:他根本沒有癌症。連考克蘭這樣一生鼓吹「下定論前先做對照實驗」的懷疑論者,都會在名醫面前棄械投降——「我從未懷疑那位外科醫師的話」。這留下兩個謎:為什麼專家不等病理報告就動刀?為什麼一個強調「別倉促判斷」的人會倉促判斷自己得了末期癌症?
醫學史「又長又悲慘」。英國醫師伯奇說大多數醫學史「出奇地古怪」,把人們相信自己在做什麼講得很清楚,卻幾乎不告訴你做的事究竟對不對。放血、催吐、水銀通便橫行千年;喬治·華盛頓 1799 年生病,被放血、下水銀、誘發嘔吐、熱罐拔水泡,然後死了。詹姆斯·林德 1747 年在船上把壞血病水手兩兩分組做了接近對照試驗的實驗,吃柑橘那組康復了,但「那不是尤里卡時刻」——連林德自己都沒被說服,之後多年水手繼續得壞血病。蓋倫——那位著作統治醫學一千多年的羅馬御醫——從不做實驗(「實驗是當人不確定真相時才做的事,而蓋倫從不被懷疑困擾」),他那句名言完美示範確認偏誤:「所有服用此療法者短時間內康復,除了那些它幫不到的人——那些人都死了。因此顯然,它只在無法治癒的病例中失敗。」改變要等到二十世紀隨機對照試驗站穩腳跟——把條件相近的病人隨機分兩組、用足夠的人數讓統計抵銷個體差異。但這條路也充滿抵抗:考克蘭做心臟加護病房試驗時,心臟科醫師罵他「不道德」、必須立刻停止,直到他揭露自己其實是「把結果反過來唸」、初步數據顯示居家照護稍好時,「現場一片死寂」——考克蘭稱這種態度為「上帝情結」。費曼的「貨物崇拜科學」概念也在此登場:二戰美軍撤離南太平洋島嶼後,島民蓋出像跑道的東西、戴著木頭耳機坐在木屋裡等飛機降落,一切都有科學的外型,卻缺乏讓它真正成為科學的東西——懷疑。費曼說:「懷疑不是可怕的東西,而是非常有價值的東西。」
接著泰特洛克轉入康納曼的雙系統模型。系統 1 快速、自動、永不停歇,是我們的「鼻尖視角」(tip-of-your-nose perspective)——像視覺一樣主觀、無法關掉;系統 2 是費力的有意識思考,負責質詢系統 1 給出的答案。「球棒與球」測驗(球棒與球共 1.10 美元、球棒比球貴 1 美元,球多少錢?)顯示,多數人——包括很聰明的人——會脫口而出錯誤的「10 分」(正確是 5 分),因為系統 2 懶得介入。系統 1 遵循一條原始邏輯:「如果感覺對,那它就對」,它「被設計成要從一點點證據跳到結論」。
幾個關鍵概念在此鋪陳:
- 可得性啟發:用「我能不能輕易回想起獅子攻擊的畫面」回答「我該不該擔心長草叢裡的影子」。
- WYSIATI(你所見即一切,What You See Is All There Is):系統 1 必須把手邊的證據當成可靠且充分,否則無法閃電般下結論。
- 故事編造的衝動:葛詹尼加的裂腦病人實驗——病人的左視野(右半球)看到暴風雪圖而指向鏟子,左半球並不知道手為何那樣指,卻能立刻編出合理故事:「噢這簡單,雞爪配雞,你需要鏟子清雞舍。」記者每天說「道瓊上漲 95 點是因為……」也是同一回事。
- 確認偏誤:2011 年奧斯陸汽車炸彈案後,人人因為「像倫敦、馬德里、9·11」而「確定」是激進伊斯蘭分子,還上 Google 找支持證據,事實卻是憎恨穆斯林的本土極端分子布雷維克。科學家對待合理假說的方式不同——他們會問自己「什麼會說服我我是錯的?」答不出來,就是對信念太依戀的徵兆。康納曼說:「高度自信的宣告主要告訴你的是:某個人在腦中建構出了一個連貫的故事——而不是這個故事一定為真。」
- 偷天換日(屬性替代):面對難問題時,無意識地用一個簡單問題取代它。考克蘭把「我有沒有癌症?」偷偷換成「他是不是那種應該知道我有沒有癌症的人?」答案當然是「是」,於是他崩潰投降。
不過直覺並非總是錯的。蓋瑞·克萊恩研究的消防隊指揮官,曾在一場廚房火災中感覺客廳「異常地熱又異常地安靜」(能產生那麼多熱的火應該更吵),一股不安讓他下令全員撤出,剛到街上客廳地板就塌陷——火的真正源頭在地下室。那不是 ESP,而是模式辨認:頂級棋手腦中存有「五萬到十萬個棋盤位置」,需約一萬小時練習才能養成。康納曼與克萊恩這兩位原本立場對立的學者最後達成共識:直覺是洞見還是錯覺,取決於你工作的環境是否充滿「能無意識記下供未來使用的有效線索」——消防員與護理師的環境有,股票經紀人的沒有(因為若公開資訊真有效,價格早已反映)。「沒有這些學習機會,有效的直覺只能來自幸運的意外或魔法,而我們不相信魔法。」反例則是《華爾街日報》專欄作家、雷根前演講撰稿人佩姬·努南,她在 2012 大選前一天靠造勢場合「群眾的強度與喜悅」、「振動是對的」來預測羅姆尼會贏——那是在沒有有效線索的環境裡誤信直覺。
這一章的結論直指核心:二十一世紀的預測,看起來太像十九世紀的醫學——「有理論、有主張、有論點,有名人、自信得跟領的酬勞一樣高,但少有實驗」。解藥是「一湯匙的懷疑」。
三、評分計分:如何把預測送上檢驗台
要研究預測,第一步是讓它「可被計分」,這比想像中難,因為現實的預測幾乎都用語模糊、缺乏時間框架、不用數字機率。
泰特洛克拆解三大障礙。時間框架:沒有時間框架的預測是荒謬的,但人們常依賴默會的共同理解,時間一久記憶褪色就引發「真正意思」的冗長爭吵。模糊用語:鮑爾默 2007 年說 iPhone「不可能拿到任何顯著市佔率」常被列入史上最爛預測,但泰特洛克翻出完整脈絡為他平反——鮑爾默講的是全球行動電話市場、且還說了蘋果「可能會賺很多錢」,問題出在「顯著市佔率」「很多錢」根本沒定義,模糊到無法宣告為錯(就像柯林頓那句「這要看『是』這個字的意思」)。機率:這是「大得多的那個」障礙——歷史無法重跑,單一機率預測無從判定對錯。
情報界傳奇薛曼·肯特很早就想解決機率問題。1951 年一份國家情報評估說蘇聯攻擊南斯拉夫是「嚴重的可能性」,國務院官員問他「你們心裡的賠率是多少?」肯特說約 65 比 35,對方嚇了一跳,因為他理解成低得多。肯特回去把團隊成員一個個叫來問「嚴重的可能性」到底是什麼意思,結果一人說 80 比 20、另一人說 20 比 80(剛好相反),其他人散落中間——「一個看起來訊息明確的詞,模糊到近乎沒用」。豬玀灣事件前,參謀長聯席會議說計畫成功「機會還算可以」(寫的人心裡其實是 3 比 1 不會成功),甘迺迪卻以為是正面評估。肯特於是設計了一張機率對照表(「幾乎確定」=93%、「很可能」=75%、「機會相當」=50%、「多半不會」=30% 等),名言是「我寧可當賭莊家,也不要當該死的詩人」——可惜這套方法從未被正式採納,要等到海珊 WMD 慘敗後才有改革契機,賓拉登突襲前 CIA 分析員對歐巴馬說「70% 或 90% 有把握」,被泰特洛克形容是「肯特一場小小的、身後的勝利」。
這裡帶出一個重要陷阱——「過了一半謬誤」(wrong-side-of-maybe fallacy)。氣象主播說 70% 下雨卻沒下,她並沒有錯(她同時也說了 30% 不下)。但人們總愛用機率落在「也許」(50%)的哪一邊來論斷對錯。2012 年最高法院維持歐巴馬健保時,預測市場原本把「被推翻」訂在 75%,《紐約時報》就宣布「市場——群眾的智慧——錯了」。這正是機構不敢用數字的原因:說 65% 卻沒發生會被釘上柱子(即使預測本身就說了有 35% 不會),於是大家寧可躲在「機會還算可以」這類橡皮筋詞背後,事後怎麼拉都對。
計分的數學工具有三個:
- 校準度(calibration):你說 70% 會發生的事,長期應有 70% 真的發生;曲線太高代表不夠有把握,太低代表過度有把握。
- 鑑別度(resolution):果斷的程度——敢給會發生的事高機率、不會的事低機率,而不是永遠縮在 40%–60% 的「也許區」。其實當我們想像「完美預測」時,想的往往就是鑑別度(神一般全知,說「會發生」就發生)。
- 布萊爾分數(Brier score):由格倫·布萊爾 1950 年發展,衡量預測與實際的距離,像高爾夫分數越低越好。完美為 0,五五波或聚合的隨機猜測為 0.5,每次都極端說錯(說 100% 會發生卻全沒發生)則為災難性的 2.0。
但分數要有意義需要基準與可比性。在每年六月都炎熱晴朗的鳳凰城,無腦規則「永遠給熱而晴朗指派 100%」就能得到接近 0 的分數;同樣 0.2 的分數放在天氣變化莫測的密蘇里春田市才算世界級。真正的技能檢驗是「能否做得比無腦的『不變』預測更好」——這需要「公平的競技場」加上「蘋果對蘋果」的比較。
接著就是歷時 21 年(1984–2004)的 EPJ 研究(Expert Political Judgment,《專家政治判斷:有多好?我們怎麼能知道?》)。這項研究的源頭可追到 1984 年國家研究委員會一個「防止核戰」小組,成員裡有三位諾貝爾獎得主與心理學家阿摩司·特沃斯基,當時 30 歲、剛升柏克萊副教授的泰特洛克是「資歷最不耀眼」的一位。1988 年一頓午餐上康納曼丟出一個可檢驗的想法:智力與知識會改善預測,但邊際效益迅速遞減,博士加幾十年經驗可能只比認真讀《紐約時報》的讀者準一點點。泰特洛克於是招募了 284 位嚴肅的專業人士(平均 43 歲、相關工作經驗 12.2 年、一半有博士),蒐集約 28,000 個預測,時間框架從一年到十年。最終結果是「平均約等於擲飛鏢的黑猩猩」——但泰特洛克用那個老笑話提醒我們「平均數會掩蓋很多東西」(統計學家把腳放烤箱、頭塞冰箱,平均溫度很舒適)。專家其實分成兩群:一群沒比隨機好、長期甚至輸給黑猩猩,另一群勉強擊敗黑猩猩與簡單的「永遠不變」「按近期變化率推算」演算法。決定差別的不是博士學位、不是機密管道、也不是他們「想什麼」(左右派都有),而是他們「怎麼想」。
這引出本書最關鍵的人格分類——狐狸與刺蝟(典出以撒·柏林引古希臘詩人阿基洛克斯:「狐狸知道很多事,但刺蝟知道一件大事」)。
- 刺蝟:圍繞一個大觀念(環境悲觀論、自由市場基本教義、社會主義……意識形態各異但都很意識形態化)組織所有思考,把複雜問題擠進偏好的因果模板,對含糊過敏,愛用「此外」「再者」堆理由,不尋常地有把握,常說「不可能」「確定」,失敗也不改口。典型如 CNBC 的賴瑞·庫德洛,他抱著「供給面經濟學」這一個大觀念,在 2007 年 12 月(金融危機初震已被感覺數月、NBER 後來把這個月定為大衰退起點)仍堅稱「沒有衰退……我們即將進入布希榮景連續第七年」,一路重複到 2008 年 9 月雷曼兄弟破產、全球金融體系凍結,還一度寫下「小布希總統可能是這個國家最頂尖的經濟預測者」。泰特洛克發現一個諷刺:刺蝟在最專長的領域反而更不準(庫德洛最懂美國經濟,卻偏偏在 2008 年看不見),就像戴著《綠野仙蹤》翡翠城的綠色鏡片——大觀念不改善先見之明、反而扭曲,更多資訊只增加信心不增加準確。更有甚者,名氣與準確度成反相關——越上電視越不準,因為媒體訓練的第一條就是「保持簡單,蠢貨」,偏愛能把故事講得簡單清晰又充滿自信的刺蝟,「刺蝟的簡單與自信損害了先見之明,但安撫了神經」。
- 狐狸:務實、多工具、多來源,會切換心智檔位,愛說「然而」「但」「另一方面」,談「可能性」與「機率」而非「確定性」,較願承認錯誤、改變心意。狐狸故事複雜、充滿轉折,是「糟糕的電視,但是好的(必要的)預測」。狐狸在校準度與鑑別度上都贏刺蝟。
狐狸厲害的祕密在於聚合(aggregation)與蜻蜓眼。法蘭西斯·高爾頓爵士 1906 年在鄉村市集發現,數百人個別猜一頭牛被宰殺處理後重量的平均值(1,197 磅)幾乎命中正確答案(1,198 磅),只差一磅——這就是後來被《群眾的智慧》一書推廣的「聚合的奇蹟」。它的原理其實不神祕:有用的資訊廣泛分散在屠夫、常買肉的人、記得去年那頭牛的人之間,這些有效資訊都指向同一方向、會堆疊起來,而隨機誤差方向不一、會相互抵消。但要注意:群體中很可能有打敗群體的個人,可那靶心多半是運氣,重複多次就會發現每次打敗平均的通常是「不同的人」。狐狸就是在一個腦袋裡進行聚合:蜻蜓的複眼由多達三萬個略有差異的小晶體組成,每個提供獨一無二的視角,綜合成卓越的視覺——「一隻擁有蜻蜓凸眼的狐狸」雖是醜陋的混合比喻,卻精準捕捉了狐狸聚合多重視角的本事。泰特洛克最後提醒:狐狸與刺蝟不是非黑即白的二分法,而是一道光譜(有「狐狸-刺蝟」「刺蝟-狐狸」混種),正如統計學家博克斯所說「所有模型都是錯的,但有些是有用的」——這個模型「是個起點,不是終點」。
四、超級預測者:他們是超級的,還是超級走運?
第四章先用伊拉克大規模毀滅性武器(WMD)的情報慘敗開場。2002 年 10 月公布的國家情報評估(編號 2002-16HC,距 9/11 僅 13 個月)斷言「我們判斷,伊拉克……持續其大規模毀滅性武器計畫,巴格達擁有化學與生物武器」,這是 CIA、NSA、DIA 等十六個機構、預算超過 500 億美元、雇用十萬人(其中兩萬名分析員)的「情報界」共識,CIA 局長泰內特甚至對白宮用了「穩進」(slam dunk)這個詞。2003 年入侵後「把伊拉克翻了個底朝天」,什麼都沒找到——這是「現代史上最嚴重的情報失敗之一」。
資深情報研究者羅伯特·賈維斯(著有《情報為什麼失敗》)的事後分析很關鍵:情報界的結論「真誠且合理,但錯誤」——海珊跟聯合國武檢玩捉迷藏、冒著被入侵與倒台的風險,行為看起來就像在藏東西,「不是因為他們瞥見了他藏的東西,而是因為他的行為看起來像個在藏東西的人」。這帶出核心區分:「判斷正確嗎?」與「判斷合理嗎?」是兩回事。 把結果好壞當成決策好壞,就是「結果偏誤」——撲克新手高估勝率、下大注、運氣好贏了,「贏並不會回溯地讓那個愚蠢的下注變聰明」;職業玩家正確看到高勝率、下大注卻運氣不好輸了,也不代表下注不智。更驚人的是,情報界從未認真探討「自己可能錯」:賈維斯指出「沒有紅隊來攻擊主流觀點,沒有來自唱反調者的分析……最驚人的是,沒有人提出一個接近我們現在相信為真的觀點」。這就是「流程負責」與「準確度負責」的差別——確保醫師洗手、檢查病人、考慮所有症狀(流程),卻從不檢查療法是否真的有效(準確度)。CIA 那本由理查茲·豪爾撰寫、鋪陳各種心理偏誤的分析手冊也一樣:「它真的有效嗎?沒人知道。它從未被檢驗。聽起來耳熟嗎?」
IARPA 競賽就是要建立準確度負責。題目刻意設計在「金髮女孩區」——既不能簡單到認真讀《紐約時報》就會(如「突尼西亞總統下個月會逃亡嗎?」),也不能難到沒人答得出(人類認知系統永遠無法預測個人或國家好幾年後的轉折點,就像人眼永遠讀不出一百公尺外視力表最底行)。競賽要求團隊擊敗對照組的合併預測:第一年要求 20% 的差距,希望第四年成長到 50%。GJP 的致勝方法毫不眩目,分四步:找幾百人預測 → 用準確度與更新頻率找出約 40 個最厲害的人 → 計算整個群體的加權平均(給那 40 人額外加權)→ 最後「極端化」(把 70% 推向 85%、30% 推向 15%)。極端化的原理是:當你聚合一大群人的判斷時,相關資訊分散在各人手中、沒人掌握全部,「如果這些人每一個都拿到所有資訊,他們會更有信心、把預測往 100% 或 0 推近」——極端化就是模擬「如果可以的話會發生什麼」。就這樣,幾百個普通人加一點簡單數學,不只與「靠數十億美元裝置支撐的專業人士」競爭,還擊敗了他們,連能讀機密的政府分析員都輸到「那個差距本身被列為機密」。
第一位代表人物道格·洛奇登場:退休的 IBM 程式設計師,灰鬍子、戴眼鏡、開一輛小紅敞篷車、Facebook 頭像是一隻鴨子,沒有任何國際事務專長,但每天花約一小時把餐桌變成預測中心。第一年他回答 104 個問題、做了約一千個分開的預測,整體布萊爾分數 0.22、在 2,800 人中排第五;第二年加入超級預測者團隊後降到 0.14,成為全場最佳——以 40% 差距擊敗一個預測市場、是唯一擊敗極端化演算法的人、以超過 60% 差距超越對照組,單槍匹馬就超越了 IARPA 第四年才設定的目標。泰特洛克說,拿道格跟「神一般全知(布萊爾 0)」相比,就像「因為老虎伍茲巔峰期沒打出一桿進洞而貶低他」。
道格不孤單。比爾·弗萊克等共 59 人在第一年位居榜首,組成第一屆超級預測者,集體布萊爾分數 0.25,相對其他人的 0.37,差距在後續年逐漸擴大、四年後超過 60%。一個生動的比喻是:超級預測者「看三百天後,比一般預測者看一百天還更準」(一般人得把預見能力擴大三倍);換成視力來說,就像把 20/100 矯正到 20/40,「累積起來,這是改變人生的」。2013 年 11 月《華盛頓郵報》報導,他們的表現比「能讀機密攔截與其他機密資料的分析員」平均好約 30%——而 IARPA 把任務置於內部人利益之前,正如書中所說,「CEO 套房裡的 Bob,可不想聽到收發室裡的 Dave 比他更會預測」。
但泰特洛克在這裡展現難得的學術誠實,用一整節檢驗「他們是超級的,還是超級走運?」。他先承認證據還不足以定論:請 2,800 人各猜 104 次拋硬幣,總會冒出一個鐘形曲線,極端結果什麼都沒告訴我們關於技能;心理學家蘭格的耶魯實驗顯示,連看別人拋硬幣,一開始連勝的人也會高估自己的「技能」,這「控制的錯覺」也是「預測的錯覺」;華爾街那些「連贏六七年」的傳奇,記者忘了算「有多少人同時在嘗試」,就像樂透中獎機率百萬分之一、但賣了百萬張總有人會中。接著他引入金融策略家莫布辛《成功方程式》裡的均值迴歸法則:父親身高 6 呎、相關係數約 0.5,對兒子的最佳猜測是 5 呎 10 吋(迴歸了 2 吋);「緩慢的迴歸較常見於以技能為主的活動,較快的迴歸則與機運較相關」——全運氣會迴歸到 50%,全技能則不迴歸。
最後的證據是跨年的一致性。超級預測者非但沒有迴歸,反而拉大領先(被選為超級、放進超級團隊提升了表現,抵消了迴歸)。個體跨年表現相關性約 0.65(略高於父子身高的 0.5):每年約 30% 的人會掉出隔年的頂尖 2%,但70% 仍維持超級水準。泰特洛克算過:這種一致性若出現在「年度相關性為 0 的拋硬幣猜測者」之中,機率不到一億分之一;但在「年度相關性 0.65 的真預測者」之中,機率約為三分之一。結論有二:別把任一年的明星當成不會犯錯(連道格都有糟糕的一年);更根本也更有希望——他們的成績主要反映技能,不是運氣。
五、不是超級聰明,也不是超級量化高手
接下來幾章逐一拆穿迷思,回答「他們到底做對了什麼」。
第五章先處理「是不是因為他們特別聰明?」 泰特洛克實測了流體智力(瑞文式矩陣推理)與結晶智力(時事知識),結果是:一般預測者的智力知識高過約 70% 的人口,超級預測者高過約 80%。三件事值得注意:第一,最大的躍升發生在「一般大眾→預測者」,而非「預測者→超級預測者」;第二,超級預測者雖遠高於平均,但多數搆不上頂尖 1% 的「天才區」(IQ 135 以上),不需要哈佛博士也不需要會五種語言;第三,智力與知識有幫助,但過了某個門檻後增益有限。本章主旨句是:「重要的不是運算能力,而是你怎麼用它。」 反例是麥納馬拉——甘迺迪、詹森兩任國防部長、「最棒最聰明」之一,卻堅信骨牌理論把越戰越打越糟,他自承「我們做決策的基礎有重大瑕疵……我們沒有批判地分析我們的假設,無論當時或後來」。
那麼真正的工具箱是什麼?
- 費米估計(Fermi-izing):源自費米的「芝加哥有幾位鋼琴調音師?」謎題。費米會問「要讓這件事成真,什麼必須為真?」把大問題拆成四個子問題:芝加哥有幾架鋼琴、一年調幾次、調一架多久、調音師一年工作幾小時。逐步估算(芝加哥約 250 萬人 → 含機構約有 5 萬架鋼琴 → 一年調一次、每次 2 小時 → 調音師年工時約 1,600 小時)得出約 63 位,而黃頁上的實際條目是 83 個——驚人地接近。重點是「透過拆解問題,我們能更好地把可知的與不可知的分開」,把黑盒子裡的猜測攤在陽光下,「大膽承受猜錯的風險」。比爾·弗萊克在「以色列是否毒死阿拉法特」一題上就先費米化:第一步跟政治無關(釙會迅速衰變,科學家能否在死多年的遺骸上偵測到?讀了瑞士團隊的報告確認可以),再問「怎樣才能汙染足夠的釙引發陽性」——以色列下毒只是其中一條途徑,巴勒斯坦敵人下毒、甚至某派系為嫁禍以色列而刻意汙染遺體都算,「每一條額外途徑都增加它真的被汙染的機率」。
- 外部觀點優先於內部觀點(康納曼的術語):先問「這類事件在這類情境中通常多常發生?」(基本比率/base rate),再用個案細節調整。為什麼外部觀點要先來?因為錨定效應——人從一個數字出發再調整,但調整往往不足,從爛錨出發只會得到爛估計(康納曼與特沃斯基的經典實驗顯示,連隨機輪盤轉出的無意義數字都會影響判斷)。處理「倫澤蒂一家會不會養寵物」這種題,超級預測者會先抓住「約 62% 美國家庭養寵物」這個基本比率,再依「他們住獨棟房子」精煉到約 73%,最後才用個案細節微調。比爾·弗萊克處理阿拉法特題時,沒被「以色列毒死他了嗎」這個簡單問題綁架,而是用外部觀點推出合理範圍(有名死者、主要機構願意開棺,機率「至少 20%」;但不會 100%,否則下葬前就發現了,「不高於 80%」),以中點 50% 起步。
- 正、反、合(蜻蜓眼):把外部與內部觀點像兩眼合成單一視覺。大衛·羅格的歐洲恐攻題就是示範:2015 年初《查理週刊》案後,IARPA 問三個半月內八個歐洲國家會不會發生伊斯蘭主義武裝攻擊。他先查維基百科得出過去五年的基準率(1.2 次/年),考量 ISIS 興起、數百歐洲穆斯林從軍而上調,再考量《查理週刊》後安全大幅加強而下修,權衡後定在 1.8 次/年,按剩下的 69 天折算(69÷365×1.8)得出 34%——而且他不說「34%,最終答案」,而是貼到論壇分享分析、想聽隊友的視角。
- 內在群眾(the crowd within):研究顯示,假設自己最初判斷是錯的、認真想為什麼可能錯、再做第二次估計、合併兩者,改善幅度幾乎等同於去問另一個人的第二意見。投資家索羅斯就是典範——他成功的關鍵是「從自己後退一步、評判自己思考、對自己提供不同視角」的心智習慣。一個實用招式是反向措辭:把「南非政府會給達賴喇嘛簽證嗎?」改問「會不會拒絕達賴喇嘛?」以對抗確認偏誤。
- 主動開放式思考(active open-mindedness, AOM):心理學家拜倫鑄造的概念。超級預測者不只「開放」,而是「主動」開放——遇到陌生題目想的是「這是學一點關於迦納的事情的機會」。道格·洛奇甚至寫了程式,按「強調多樣性」的準則替自己挑下一步該讀什麼資訊源,「他不只是開放心胸,他是主動開放心胸的」。AOM 量表的測項包括:「人應該把跟自己信念相反的證據納入考量」「改變心意是軟弱的表現」(反向計分)等。
本章的點睛句也是全書的精神標語:對超級預測者而言,信念是「等著被檢驗的假說」,不是「等著被守護的寶物」——「如果硬要把超級預測簡化成貼紙上的口號,這句話就是」。
第六章處理「是不是因為他們是數學天才?」 超級預測者確實擅長數字(萊文是康乃爾數學助理教授、有人會建蒙地卡羅模型處理匯率題),但成績幾乎不靠精密數學模型——絕大多數預測是「仔細思考與細緻判斷的產物」。萊文甚至「有點反骨地,想證明能在完全不用數學的情況下做個好預測者」。算術能力真正的價值,在於讓人成為機率式思考者。
關鍵概念是機率的細緻度(granularity)。特沃斯基曾半開玩笑說,多數人處理機率只有三個刻度:「會發生」「不會發生」「也許」——這源於石器時代的二元生存反應(是獅子就跑、不是就放鬆),多分辨 60% 與 80% 不但增益不大,還可能拖慢你逃命。本書用兩個潘內塔做對照:電影《00:30 凌晨密令》裡虛構的 CIA 局長潘內塔渴望共識、厭惡「也許」(電影裡女主角瑪雅在窗戶上寫「100%,他在那裡」);而真實的里昂·潘內塔(前國防部長)歡迎多元判斷,名言是「沒有什麼是 100%」,他說「我鼓勵周圍的人不要告訴我他們以為我想聽的話,而是告訴我他們相信的話」。歐巴馬在賓拉登突襲前那句「這是五五波、這是擲銅板」也被細讀——當顧問估計從 30% 到 95% 不等、中位數約 70% 時,總統卻退回「也許」這第三個刻度(泰特洛克認為較合理的解讀是:只要賓拉登有任何顯著可能性他都會行動,所以幾%已不重要,「五五波」是用來切斷討論、推進決策的)。
資料很有說服力:超級預測者整整三分之一的預測使用單一百分點刻度(會說 35% 而非黏在 30% 或 40%),而且避免使用 50%(因為對謹慎思考者來說 50% 只是眾多刻度之一,常用 50% 的人往往是把它當「也許」的代名詞,準確度較差)。梅勒斯的研究證明這是真精確——把超級預測者的數字四捨五入到最近的 0.05 就會損失準確度,而一般預測者就算粗到捨入到最近的 0.2 也沒太大損失。查理·蒙格說得最重:「如果你不把這個基本、但稍微違反自然的『基本機率數學』放進你的曲目裡,那麼你會像個踢屁股比賽中的獨腳人,過完漫長一生。」本章還引入知識性不確定性(epistemic,理論上可知,是時鐘式挑戰)vs 偶然性不確定性(aleatory,本質不可知,是雲式問題)的區分——「偶然性不確定性確保生活永遠會有驚喜」。前財政部長魯賓(自傳就叫《在不確定的世界》)的逸事很傳神:年輕助手說一條法案「一定會通過」,他一點也不喜歡,「現在我會說機率 60%——而且我們可以爭論是 59 還是 60%」。
本章結尾轉向哲學觀察:超級預測者的「命運分數」最低——他們堅實地拒絕「每件事發生都有原因」「沒有意外或巧合」這類命運思考,落在量表「拒絕命運」的那一側。一連串反事實實驗顯示,越是想像「本來可能不同」、把走過的路看作命中注定的人,越會在事件中讀出意義;機率式思考者則聚焦「如何」(物理學)而非「為什麼」(形上學)——諾貝爾經濟學獎得主席勒就把自己「祖父因為福特日薪 5 美元才搬到底特律、否則他不會出生」這件事,看作「未來多徹底不可決定」的例證,而非命運的證明。最值得玩味的是:命運分數與布萊爾分數顯著相關(越用「注定如此」的方式思考,預測就越不準);而在事件中尋找意義雖與「幸福感」正相關,卻與「先見之明」負相關。泰特洛克於是寫下那句近乎冷酷的話:「我不知道(痛苦是不是準確的代價)。但這本書不是關於如何快樂的。它關於如何準確。」
六、不斷更新與永遠的測試版
第七章處理「是不是因為他們只是失業的新聞迷、更新比較勤?」(書名就是對某位拒賽政治學家那句「我才不要跟失業的新聞迷競爭」的回敬)。泰特洛克的回答有兩層:第一,更新頻率確實重要,但不足以解釋全部——超級預測者光是「初始預測」就比一般人準至少 50%,「即使競賽只要求一次預測、不允許更新,超級預測者也會以決定性差距獲勝」;第二,輕視「信念更新」是大錯,因為好的更新需要與初始預測相同、甚至更高的技能,「造成差別的,是正確辨認並回應較細微的資訊」(像歐巴馬宣布打擊 ISIL 這種人人看得到的更新就不造成差別)。
更新要求預測者在兩個危險之間找出中間航道(書中用希臘神話兩隻海怪——暗礁怪司庫拉與漩渦怪卡力布狄斯——比喻):反應不足(沒給新資訊足夠權重)與過度反應(把新資訊看得比實際更重)。書中用「疊疊樂」比喻信念系統:塔頂那些無關自我的積木(例如「凱因斯說過某句話」)可輕易抽換,但越靠近「自我認知」的積木,一抽整座塔就崩塌——這解釋了為什麼承諾越深的人越不願更新。耶魯教授卡漢的研究更指出,人對風險的判斷較少由證據驅動、較多由身分認同驅動(槍枝管制立場常與氣候變遷立場相關,儘管兩議題毫無邏輯關連)。信念固守的極端案例是二戰日裔美國人拘禁——迪威特將軍那句循環論證令人毛骨悚然:「迄今沒有破壞行動發生,這個事實本身就是『這種行動將會發生』的令人不安且確認性的指標。」另一個陷阱是稀釋效應:在判斷裡加入明顯不相關的雜訊,反而會削弱判斷、降低信心,因為無關資訊讓人把對象看得更「個人化」、淡化了與基準的符合度。
正面解方是「許多小更新」,哲學基礎是貝氏更新。托馬斯·貝氏是十八世紀的長老會牧師,他與普萊斯、拉普拉斯共同奠定的貝氏定理,可寫成「後驗賠率 = 似然比 × 先驗賠率」——白話說,新信念取決於你的先驗信念乘以新資訊的「診斷價值」。同事烏菲爾德處理「海格爾能否獲任命為國防部長」一題就是教科書示範:他先抓基準率(國防部長設立以來 24 位提名人只有一位被否決),先驗高達 96%,再依聽證會表現代入貝氏,算出「從 96% 跌到區區 83%」——結論海格爾仍很可能過關,兩週後果然通過。本章的英雄是溫哥華軟體工程師、外號「明托船長」的提姆·明托——一個「不使用貝氏定理的貝氏主義者」(他坦言「如果你叫我憑記憶把公式寫下來,我大概會失敗」,幾百次更新一次都沒用過公式)。他在「敘利亞難民人數」一題上改了 34 次預測、平均每次只更新 3.5 個百分點,最終布萊爾分數 0.07(作者形容是籃球的「空心入網」)——沒有戲劇性的大擺盪,靠許多小更新安全穿過兩隻海怪之間。「少量小更新會把他推向反應不足,許多大更新可能把他推向過度反應;但用許多小更新,提姆安全地穿過司庫拉與卡力布狄斯。」
但本章也誠實展示反例:弗萊克在「安倍是否參拜靖國神社」一題上反應不足,事後他坦承「我真正回答的問題不是『安倍會不會去』,而是『如果我是日本首相我會去嗎』」——又一次對自己玩了偷天換日;道格·洛奇在北極海冰題上,看到一份其實已經過時一個月的報告就「把船舵狠狠打到 95%」、過度反應而失分(後來他選擇丟掉那份報告、重做,先回 55% 再降到 15%,恢復「許多小更新」的風格,作者評這才是正確選擇)。借歐威爾〈政治與英語〉那條最高規則的精神——「寧可違反以上任何一條規則,也不要說出徹底野蠻的話」——超級預測沒有神奇公式,只有「許多帶警告的廣泛原則」,而且寧可違反規則也不做野蠻粗暴的預測。
第八章揭曉那個最強的單一預測因子——「永遠的測試版」(perpetual beta)。 這是程式設計術語,指一個永遠不打算發布最終版、會被持續使用、分析、改進的程式。它由三樣東西構成:
- 成長心態(growth mindset):杜維克的概念,相信能力大致是努力的產物、可以成長,而非「能力只能被揭露、不能被創造」。「我數學很差」會變成定型心態者的自我實現預言——他們把它當成不可變更的特徵,不再努力,把挫折當成「極限已揭露」的證明。杜維克的五年級拼圖實驗很傳神:難拼圖一來,定型心態的孩子失去興趣,成長心態的孩子反而更愛、甚至有人問「你能把這些拼圖的名字寫下來嗎?這樣玩完了我媽可以再買」。腦部掃描則顯示,只有成長心態者會仔細注意「能擴展知識」的回饋資訊。
- 「試、失敗、分析、調整、再試」的學習循環:凱因斯就是活例子,他 1920 年外匯預測大錯、1929 年崩盤又大虧,卻每次都從反思中反彈,最終得出「股價未必反映真實價值、應徹底研究公司」的結論(與葛拉漢的價值投資同期)。學預測像學騎自行車——博藍尼能用物理學精確解釋騎車原理,卻問「但這告訴我們究竟怎麼騎自行車嗎?不」,因為那是只能從「碰得傷痕累累」的經驗獲得的「默會知識」。關鍵是循環必須配上清楚及時的回饋:為什麼氣象學家與老練橋牌玩家不會過度自信、而警察的測謊能力不隨經驗變好?因為前者隔天看天氣、每手結束看結果就知對錯,後者得到的回饋遲緩又模糊(嫌疑人不會說「你說對了!我真的在說謊」)。沒有回饋,自信與技能的鴻溝只會隨經驗越拉越大。
- 恆毅力(grit):達克沃斯的概念,「對長期目標的熱情堅持」,即使面對挫折與失敗。書中的安·吉爾肯尼是阿拉斯加小鎮的家庭主婦、「離上次面對真正智識挑戰已四十年」,第三年幾乎獨力答完團隊全部 150 題,說「我更在乎學習而不是拿頂尖成績」;伊莉莎白·斯隆則在腦癌、化療、復發之中仍志願參賽,為的是「讓突觸重新長回來」。
本章還示範兩個阻礙從失敗中學習的陷阱:模糊語言(佛瑞效應——心理學家佛瑞把占星書的模糊句子拼成同一份「個人剖析」發給所有學生,平均得到 4.2/5 的「準確」評價,因為模糊語言能拉伸到符合任何人)與時間落差(讓後見之明偏誤有機可乘——泰特洛克 1988 年請專家估「五年內蘇聯共產黨會失去權力獨佔」的機率,蘇聯解體後再請他們回憶當年的估計,平均比正確數字高出 31 個百分點,極端的甚至把原本的 20% 記成 70%)。沒有清楚回饋,就像在黑暗中投籃——只靠聲音分不出「唰」是空心入網還是根本沒到籃框,只有把燈打開才學得會。凱因斯是「一貫地不一貫」的典範,名言是「偶爾出錯沒關係,特別是如果立刻被發現的話」。
本章給出全書最重量級的數字結論:進入超級預測者行列最強的預測因子是「永遠的測試版」——對信念更新與自我精進的承諾,它作為預測因子大約是排名第二的智力的三倍強。 換句話說,借用愛迪生的話,超級預測大約是 75% 的汗水、25% 的靈感——「無論智商多高,都很難補上『對讓突觸成長這個個人專案缺乏奉獻』這個缺」。
七、超級團隊與領導者的兩難
第九章把鏡頭從個人轉向團隊。 團隊是雙面刃:「群體可以聰明、可以瘋狂、也可以兩者兼具」,組得好能銳化判斷、合力完成一個人做不到的事,組得壞會滋生「群體迷思」。本書用甘迺迪政府的兩個對照案例開場——同一批人馬(甘迺迪事後並沒換人),在豬玀灣慘敗(1,400 名登陸者被兩萬大軍包圍,三天內全死或被俘;事前換了登陸地點卻沒重想撤退備案,而原以為可撤退的山區其實距灘頭 80 英里、隔著沼澤與叢林),卻在十八個月後的古巴飛彈危機表現出色。差別在於甘迺迪刻意改了流程:把懷疑變成新口號,指定弟弟鮑比與索倫森當「智識上的看門狗」去「無情追擊每個爭議點」、不惜當魔鬼代言人提出尖銳粗魯的問題,擱置儀節與層級,自己有時離開房間讓眾人自由討論(總統在場會壓抑真正的你來我往),甚至刻意藏起自己偏好的「先制空襲」方案以免成為討論焦點——第一天會議結束時就已認真討論了十個替代方案。
群體迷思(出自泰特洛克的耶魯指導教授之一詹尼斯)的機制是:過於和睦的「親切的一致」被誤當成「我們在正確軌道上」的證明(「我們不可能全錯,對吧?」)。但聚合只在判斷獨立時才施展魔法——獨立性確保誤差隨機、相互抵銷,而討論會流失獨立性(大嗓門、霸凌者、「學歷讓他人乖乖閉嘴的人」會讓錯誤堆積而非抵銷,這正是十七世紀荷蘭鬱金香狂熱與 2005 年美國房市泡沫的根源)。GJP 的指引因此兩面警告:既防群體迷思(「要合作但不要順從。共識不總是好的,分歧不總是壞的……尖銳的問題對團隊就跟維他命對人體一樣關鍵」),也防惡意失能(練習葛洛夫的「建設性對抗」與「精確提問」——把「你很蠢」這種只加熱不加光的回應,換成「你說的『休閒運動』是什麼意思?有什麼證據?在多長的時間框架內?」)。
結果非常漂亮:第一年團隊比個人準確 23%;被選為超級預測者後放進超級團隊,個人準確度再提升 50%——而這群人只是「在網路空間裡微弱連結的一群陌生人」(每隊十二人、從不面對面)。對決數據也清楚:一般團隊比群眾智慧好約 10%,預測市場比一般團隊好約 20%,而超級團隊比預測市場好 15% 到 30%。最佳團隊的徵兆藏在語言裡——說「我們的」比「我的」多(呼應哈佛愛德蒙森的「心理安全」研究:最好的外科團隊裡,護士會毫不猶豫告訴主刀醫師「你把海綿留在胰臟後面了」)。書中的依蓮·瑞奇一開始對團隊「蠻畏縮的」,因為隊友都「宣告了驚人的學歷」;馬蒂·羅森塔爾則描述大家最初總在「跳舞繞圈」、把話包在謹慎詞語裡,後來學會為彼此的建設性批評道謝,氛圍才打開。本章也補上同事佩奇的「多元勝過能力」(diversity trumps ability):聚合的關鍵字是「不同」,是觀點的多元性讓魔法運作——重點不是「能力或多元」二選一,而是「微調兩者的混合比例」。
第十章處理一個真實的張力——領導者的兩難。 領導力公認需要自信、果斷、願景(「沒有人會說邱吉爾、賈伯斯謙遜——也許甘地算,但你試著舉出第二個」),這些似乎與超級預測的謙遜、緩慢、自我批判直接衝突,會不會導致「分析癱瘓」?泰特洛克的解答是:矛盾「表面比實際大」,調和兩者的關鍵是一套指揮哲學——任務式指揮(Auftragstaktik / mission command)。
這套哲學由十九世紀普魯士將軍毛奇闡述(他率軍接連擊敗丹麥、奧地利、法國而促成德國統一),核心公理是「在戰爭中一切都不確定」「沒有任何作戰計畫能確定地延伸到首次與敵人主力接觸之後」。精髓是:指揮官告訴下屬「目標是什麼」與「為什麼」,但不告訴「如何達成」——把決策權往下推給「現場最先遇到意外的人」。德國戰爭學院的教育是博雅式的、鼓勵挑戰權威;一個經典故事是 1758 年佐恩多夫戰役,騎兵將領賽德利茨三次拒絕腓特烈大帝「進攻」的命令(認為時機不對),第三次被警告「不進攻國王要他的腦袋」,他回答:「告訴國王戰役結束後我的頭任他處置,但目前我會用它」——最後他判斷時機對才出擊、扭轉戰局。任務式指揮一路下推到士官與最基層士兵:「需要能獨立思考與行動的士兵」,「一個士兵攜帶最強大的工具不是武器,而是他的頭腦」。
德軍把它臻於完美。1940 年的艾本-埃馬爾要塞奇襲就是教科書案例:連指揮官維齊格中尉的滑翔機都在德國境內迫降、距目標 100 公里,另一架攻橋的滑翔機落在 60 公里外,但一名中士接管剩餘兵力敲掉了比利時火砲,那架走錯地點的還徵用兩輛車、即興發動地面攻擊俘虜了 121 人——任務照樣達成。歷史學家柯倫評道,儘管它服侍的政權「邪惡至極」,二戰德國陸軍「以個人對個人來算,是史上最有效的戰鬥力量之一」(值得一提的是:「納粹並沒有創造國防軍,他們繼承了它」)。反過來,希特勒違反毛奇原則、直接介入指揮,在諾曼第戰役中坦克預備隊「只能依他的個人命令調動」,而他睡得很晚、副手不敢叫醒他——導致災難。諷刺的是,打敗德軍的,是「比德國最高統帥更深入理解毛奇哲學的德裔美國將軍:艾森豪」。巴頓那句話最簡潔地捕捉了精神:「永遠不要告訴人們怎麼做事,告訴他們要做什麼,他們會用獨創性讓你驚訝。」這套哲學 1982 年正式成為美國軍事教義,2003 年伊拉克「雷霆突進」與裴卓斯在摩蘇爾的即興都是它的應用(記者卡普蘭描述裴卓斯「告知巴格達上級他在做什麼,但他從不請求許可,當然也不等指示——他知道根本不會有任何指示」),後來更被以色列國防軍(口號「計畫只是改變的平台」)、3M、Amazon(貝佐斯的領導原則「有骨氣;不同意但承諾」)乃至沃爾瑪(建了根基於 mission command 的「領導學院」)採用。
本章最深刻的洞見在於解開謙遜的難題:泰特洛克區分智識上的謙遜與自我懷疑。前者是認知「現實極其複雜、清楚看見是場持續的掙扎、人類判斷必滿是錯誤」,後者才是覺得自己沒才能、不夠格——而這兩者完全不同。因此一個人可以同時對自己評價很高、又在智識上謙遜(毛奇、肯特、考克蘭、凱因斯、索羅斯、裴卓斯都是「自信的判斷者」)。撲克世界冠軍安妮·杜克的話最傳神:聰明人最容易被「我相信我的判斷是對的這個事實,就證明它是對的」這種捷徑誘惑(那只是「從鼻尖看現實」);「你必須對遊戲本身懷有巨大的謙遜,因為它極端複雜……但對遊戲的謙遜,跟對你對手的謙遜,是極不相同的兩件事」——她對贏過多數對手有信心,「但這不代表我覺得自己已經精通了這個遊戲」。林肯第二次就職演說也同時包含激烈的決心與謙遜的承認:「以堅定的態度站在我們所看到的『正確』那邊——就上帝賦予我們看見正確的能力而言。」
本章末尾還有一段方法論辯護:為什麼用一支服侍邪惡政權的軍隊當正面教材?正因為它讓我們不舒服。承認自己鄙視的東西有令人印象深刻的特質,是「視角採取裡最艱難的一種」,而做不到這點的預測者會犯下衝突中最嚴重的錯誤——低估對手。假設「兇暴的政權必然無能」是危險的「虛幻相關性」——「道德與能力之間沒有被神聖授權的連結」(彌爾頓筆下的撒旦既邪惡又有資源)。費茲傑羅說得好:「一流智力的考驗是同時把兩個對立的想法放在心中、仍能保有運作能力。」把事實判斷與價值判斷分開,是準確的前提——連超級預測者也會混淆兩者:道格·洛奇就因「對阿薩德政權的厭惡」而在阿勒坡之戰上得出一廂情願的結論,儘管證據顯示反抗軍火力不敵。
八、最有力的兩個反駁,以及下一步
第十一章是全書最誠實的自我拷問,泰特洛克正面迎戰兩位他最敬重的批評者。在進入反駁之前,他先用一個例子提醒「我們所有人都脆弱」:DIA 局長佛林將軍 2014 年公開宣稱當前是「我整個職業生涯中最不確定、最混亂的國際環境」「前所未有的社會衝突時期」,但這是可檢驗的——國家間戰爭自 1950 年代下降、內戰自冷戰結束下降、戰鬥死亡整體下降,「Google 一下『全球衝突趨勢』就可以」,佛林卻沒查,落入了 WYSIATI 這個「所有認知錯覺之母」。就像繆勒-萊耶錯覺(知道兩線等長也關不掉錯覺),「我們關不掉鼻尖視角,只能監控冒進意識中的答案、拿尺去檢查」。
第一個挑戰是康納曼的範圍不敏感(scope insensitivity)。康納曼三十年前的經典實驗顯示,人們願意為清理「一個小區域的湖」和「安大略全部 25 萬個湖」付出的錢差不多(都約 10 美元);候鳥實驗也一樣,救 2,000 隻、20,000 隻、200,000 隻的願付金額都約 80 美元——因為他們回答的其實是腦中那個典型意象(一隻滿身油的鴨子)引發的「這讓我感覺多糟」。在預測上,時間框架就是「範圍」。泰特洛克與梅勒斯(康納曼仍實踐的「對抗式合作」之一例)做實驗:一般預測者問阿薩德倒台機率,3 個月內答 40%、6 個月內答 41%(範圍不敏感);但超級預測者答 3 個月 15%、6 個月 24%——展現範圍敏感性,連康納曼都意外。泰特洛克認為這是因為他們把系統 2 的修正(例如後退取外部觀點)練到變成系統 1 的習慣,像高爾夫揮桿——第一次站上發球台「彎膝、頭傾、抬肩、抬肘」很彆扭,反覆刻意練習後就埋進系統 1、優雅完成。而且耐人尋味的是,「在我們開始研究範圍不敏感之前,超級預測者就已經在談這個問題了」——是他們的思考形塑了訓練指南,而非反過來。
第二個、更致命的挑戰來自塔勒布的黑天鵝:「黑天鵝,且只有黑天鵝,決定歷史的進程」「歷史與社會不會爬行,它們做跳躍」——若如此,那麼「重要的事不能被預測,能被預測的事不重要」,IARPA 委託的就是傻瓜差事。
泰特洛克的回應分幾層。首先,許多所謂黑天鵝其實是「灰天鵝」——按塔勒布最嚴格的定義(發生前字面上無法被想像),9/11 並不合格:1994 年就破獲過劫機撞艾菲爾鐵塔的陰謀,1998 年 FAA 檢視過劫持貨機撞世貿的情景,2001 年 8 月哈佛恐怖主義專家理查森還說「這個戰術正被認真考慮」。其次,他承認在嚴格意義上,第一代競賽確實無法告訴我們超級預測者多會抓黑天鵝(「高度不可能」事件要堆出足夠資料得幾百幾千年),但他也提醒歷史不只跳躍、也會爬行(十九世紀全球年均成長 1%、二十世紀 2%,累積成前所未有的財富)。最關鍵的反擊是:把單純的驚訝升級為「黑天鵝」的是它的「後果」,而後果需要時間展開——攻陷巴士底之所以重要,是因為它觸發了法國大革命;9/11 的歷史意義在於後續入侵阿富汗等,而那條後果鏈本可不同(社會學家瓦茨說「你越想解釋黑天鵝,就越得把『事件本身』的邊界畫得越廣」)。9/11 後三天美國要求塔利班交人,塔利班本可權衡「在即將擊潰北方聯盟的關鍵時刻,庇護外國阿拉伯人不值得引發唯一超強的怒火」而交出賓拉登,或賓拉登感覺引渡迫近而逃往他國——那就會是「沒有阿富汗入侵」的另一個世界。所以泰特洛克說:我們或許無法預見 9/11 本身,但有「一倉庫的證據」顯示超級預測者能預測組成其後果的那些小問題(塔利班會交人嗎?美國會威脅軍事行動嗎?賓拉登會在入侵前逃離嗎?)——「那麼我們就能預測黑天鵝」。
同時他也接受塔勒布世界觀的合理核心。歷史機率可能像「厚尾分布」(fat-tailed):身高是鐘形曲線(史上最高不到 9 呎),但財富不是——若按鐘形曲線,淨資產超過 10 億幾乎不可能遇到,現實卻有近五百位億萬富翁,「成為億萬富翁的真實可能性從兆分之幾陡升到約七十萬分之一」。塔勒布假設戰爭傷亡等歷史變量也是厚尾的——1914 年若有人預言「一千萬死亡」會被當瘋子,但用厚尾分布來看「仍視為不可能,卻比之前可能上千倍」(「強力球機率從五百萬分之一升到五百分之一,你不會衝去買票嗎?」)。所以「為驚訝做規劃」(韌性、甚至塔勒布主張的「反脆弱」)是必要的——倫斯斐 2001 年 4 月轉給小布希一篇文章,作者威爾斯回顧 1900–2000 年每個十年初的戰略情勢都與十年前「驚人不同」,結論「我確定 2010 年會跟我們預期的非常不一樣,所以我們應該據此規劃」(這份備忘錄寫後正好五個月發生 9/11)。正如艾森豪所說:「計畫是無用的,但規劃是不可或缺的。」不過泰特洛克也強調,為驚訝做準備有代價、得排優先順序(東京蓋抗震建築合理,少地震的窮國照搬就不合理),而排序本身又回到機率判斷——「知道自己不知道,比以為自己知道自己不知道的事要好」。本章以一個發人深省的反事實作結:康納曼指出,希特勒、史達林、毛澤東三人都靠「絕不接受女性領導」的運動上台,但每人都源於一顆未受精的卵、有 50% 機率變成女性合子——三人都生為男性的機率只有 12.5%,至少有一位生為女性的機率高達 87.5%。若 1889 年生在奧地利的是「安娜·希特勒」,二戰可能從未發生(或一位更聰明的納粹獨裁者造成更糟的恐怖)。但泰特洛克最後仍堅持:謙遜不該遮蔽一個事實——在渺小的人類尺度上,先見之明「一點都不容輕視」。
第十二章展望「下一步」。 願景是一場類似「實證醫學」的「實證預測」革命:預測的消費者開始「停止被有好故事的名嘴蒙騙,開始問名嘴『你過去的預測表現如何?』」——正如我們現在期待一顆藥在吞下前先通過同儕審查的實驗測試。2014 年蘇格蘭公投(反對獨立方以 55.3% 對 44.7% 獲勝,超級預測者連有真錢下注的英國博彩市場都擊敗)後,《華盛頓郵報》部落客德雷茲納本想寫篇「選你自己的分析」式的嘲諷貼文,最後卻誠實承認自己也犯了「預測模糊的毛病」,並承諾「未來我會做兩件事:做出清楚預測、並對那個預測提供信心區間——換句話說,我要記分」——這正是泰特洛克盼望的反應。
阻力來自列寧式的「誰對誰」(kto, kogo?)——在這種世界觀裡,政治只是權力鬥爭,「論證與證據是可愛的裝飾,重要的是成為 kto 而不是 kogo」,黨派只看預測是否對齊自己的目的:奈特·席佛 2012 年正確預測歐巴馬獲勝時被共和黨人罵偏頗、被民主黨人讚誠信,2014 年他預測共和黨會拿下參議院,「同一位預測者、同樣紀錄」卻立刻被民主黨人傳閱過去失敗的預測、從先知降格。一位巴西銀行分析師只因警告「左翼候選人民調上升、股市可能下跌」就被立刻開除,「她的預測是否準確完全不重要」。但泰特洛克說「列寧有點太教條了,人們想要權力,但他們也重視其他事」。改變的力量有歷史先例:一世紀前波士頓醫師寇德曼提出「結果系統」(記錄每個病人的病情、治療與最終結果並公布),為此被踢出麻省總醫院、丟了哈佛教職,卻最終讓越來越多醫院採用、自己成為搶手講者與委員會首任主席;類似的「實證政策」「運動界的數據革命」(《魔球》式分析讓憑直覺的老派技巧「像放血一樣走向衰敗」)正在各領域展開,而資訊科技正是催化劑。當然也有來自人文派的合理反對——文化評論家維瑟蒂爾警告「有些指標是用來衡量無法被指標衡量的現象……智慧曾在的地方將被量化取代」,泰特洛克承認「不是所有能算的都該算,也不是所有該算的都能算」,數字只是工具、品質可從糟糕到極佳,但他堅持自己的評分系統「比今天用來判斷預測者的標準大有改進——那些標準是頭銜、自信、編故事的本事、賣書數量、上 CNN 的次數、在達沃斯花的時間」。
最後三個建設性提議值得記下:
- 問好問題:好問題能通過「拍額頭測驗」——讀到時讓人拍著額頭說「如果我早想到該多好!」(佛里曼 2002 年那篇追問「伊拉克是阿拉伯版南斯拉夫、還是能慢慢長出聯邦民主」的專欄就通過了這個測驗)。泰特洛克指出,最佳「超提問者」的心理配方其實跟最佳「超預者」相當不同——絕佳問題常伴隨「刺蝟式的銳利與自信」(對深層驅動力有大觀念的抓握),與超預者「狐狸式的雜食、對不確定性敏感」相反——所以理想狀態是兩者共生(他稱為「湯姆-比爾共生」):佛里曼這種大思考者擺出挑釁問題供超預者磨利答案,超預者產出校準後的答案供大思考者微調心智模型。
- 貝氏問題群組:大問題(重要但無法評分,如「北韓危機最終會怎麼演變?」)由許多小問題(可評分但較不重要,如「北韓會再核試嗎?會對南韓開砲嗎?」)組成,「是」越多大問題越可能糟糕收場,答案累積閉合,像點描派一點一點拼出整幅圖。
- 對抗式合作去極化:讓對立陣營(如凱因斯派 vs 撙節派——兩方多年來各種食物大戰式的互罵,「沒人似乎學到任何超過如何捍衛自己最初立場之外的東西」)在受信任的第三方協助下,把分歧轉化成可評分的精確預測問題(通膨多少?什麼基準?什麼時間?)——前提是善意:「每一邊都想要對,但他們更想要真相。」泰特洛克提醒「別犯憤世嫉俗者的錯誤——以為主導辯論的喧鬧聲音就是唯一的辯論者」,總有較理性的聲音,而「最重要的是,我們全都能看著、看到結果、變得稍微聰明一點」。
全書結語樸實得近乎口號:「我們要做的事很簡單,就是對『記分』這件事認真起來。」 後記以比爾·弗萊克收尾——他坦承自己其實出生於堪薩斯城、七歲才搬到內布拉斯加(這份「精確」本身就是超預者的特質),也謙遜地說達沃斯的座位應該留給「能不看筆記就針對某國政治、經濟、人口結構講課的人」。但他不是打發名嘴,而是「運用」他們:好名嘴「會替預測辯護論證……我把他們看成對抗式司法體系中的律師,提出最佳論證,而我考慮每個人的論證、依需要進一步挖背景、然後拿他們的加權和當作我自己的預測」。當作者問他若遇到「運氣壓過技能」的低潮怎麼辦,他清醒地回答:那個可能性「非常清楚地擺在我眼前,我很清楚運氣在我的成功中扮演了角色」,幾次糟糕的極端預測雖不會粉碎他「我是相當稱職的超級預測者」的自我形象,「但會讓我更謹慎、較少做極端預測……布萊爾分數給我回饋,我據此修改預測行為」。泰特洛克下了最後判語:「我想不出對『試、失敗、分析、調整、再試』這個循環、以及對『持續做下去、持續改善』的恆毅力更好的描述。比爾·弗萊克就是永遠的測試版。那也就是為什麼他是超級預測者。」
九、附錄:給有志成為超級預測者的十誡
這份指引被定位為「提煉本書關鍵主題、且已被實驗證實能在真實世界預測競賽提升準確度的訓練系統」。
- 分類(Triage):把心力集中在「努力可能有回報」的問題上,聚焦「金髮女孩區」難度——太簡單的時鐘型(簡單經驗法則就夠)和太難的雲霧型(連花俏統計模型都贏不了黑猩猩)都別浪費時間。兩種基本錯誤都要避免:「沒嘗試預測潛在可預測的事」和「浪費時間試圖預測不可預測的事」。
- 把看似棘手的問題拆成可處理的子問題:用費米估計「頑皮但有紀律」的精神,「把無知沖到光天化日下」,膽敢出錯、做出最好的猜測——「快速發現錯誤勝過藏在模糊措辭背後」。(書中那個寂寞倫敦人用一連串比率估出自己只有約 26 位潛在伴侶的計算,就是費米化的有趣示範。)
- 在外部觀點與內部觀點之間取得平衡:先問「這類事件在這類情境中多常發生」的基本比率,再用個案細節調整。賴瑞·桑默斯就懂「規劃謬誤」——他會把員工的時間估計加倍再升一個單位(「說一小時就會花兩天,說兩天就會花四週」),但若有人準時交件就修正係數。
- 在反應不足與過度反應之間取得平衡:「信念更新之於好預測,就像刷牙與牙線之於好牙齒衛生」。當個漸進的信念更新者(常從 0.4 移到 0.35、0.6 移到 0.65),但也知道何時該因診斷性訊號而大幅跳動——超預者「不是完美的貝氏更新者,但比我們大多數人好,因為他們重視這個技能、努力培養它」。
- 找出每個問題中相互衝突的因果力量:把樣板的鴿派或鷹派,透過正、反、合的辯證轉化成「鴿-鷹」混種——「綜合是門藝術,需調和不可化約的主觀判斷」。
- 盡量區分疑慮的程度——但不過頭:「也許」不夠有資訊量,你的「不確定性轉盤」需要超過三個刻度。書中提醒:如果小布希白宮執行「對運動賭家是第二天性」的證據標準,CIA 局長泰內特絕不敢對伊拉克 WMD 吐出「穩進」二字——因為「穩進」意味著願意提供無限賠率、錯了就輸光一切。
- 在審慎與果斷之間取得平衡:同時追求好的校準度與鑑別度,既不能「倉促下定論」、也不能「在『也許』附近磨蹭太久」,更要超越「責怪賽乒乓球」(光是避免最近犯的錯還不夠)。
- 找出錯誤背後的失誤,但提防後見之明偏誤:做「毫不退縮的事後檢討」,連成功也要檢討——「並非所有成功都意味推理對,你可能靠相互抵銷的錯誤幸運過關」。
- 帶出別人最好的一面,並讓別人帶出你最好的一面:精通視角採取(好到能複述對方論證到對方滿意)、精確提問、建設性對抗。前道奇隊教練拉索達的話是好註腳:「管理就像把鴿子捧在手裡——抓太緊會把牠殺死,抓太鬆會把牠弄丟。」
- 精通「平衡錯誤的腳踏車」:每條誡命都需平衡對立的錯誤,「正如你無法靠讀物理教科書學會騎腳踏車」,只能靠「做」加上對成敗毫無模糊空間的明確回饋學會——「超級預測是深度、刻意練習的產物」。
- 別把誡命當誡命:毛奇說「不可能訂下適用於一切情境的死規則,因為兩個案例永遠不會完全相同」。在這個「沒有什麼是確定的或完全可重複的」世界,指引是我們能做的最好的東西,但超級預測需要持續的正念——「即使、也許特別是、在你盡責地試圖遵循這些誡命的時候」。
十、值得討論的幾個觀點
第一,這本書最了不起的地方,是它對自己誠實。 泰特洛克花了整整一章問「他們會不會只是走運」(並老實算出一億分之一的機率才安心),又花一章認真對待黑天鵝這個可能推翻整本書的反駁、邀請康納曼與塔勒布兩位最敬重的批評者上場。這種「對自己的研究下手」的態度,本身就是「永遠的測試版」與智識謙遜的最佳示範——作者活出了他寫的方法。
第二,最違反直覺卻最實用的洞見,是「許多小更新」。 我們的文化崇拜戲劇性的洞見與一錘定音的判斷,但提姆·明托靠一次只調 3.5 個百分點、改了 34 次,拿下近乎完美的成績(布萊爾 0.07)。這對日常決策(投資、職涯、人際)有直接啟示:不要等到「全有或全無」的證據才行動,而是隨證據細水長流地微調信心。書中那個「金拉米紙牌」的比喻也提醒我們:過度反應的根源往往是「缺乏承諾」,但反應不足的根源是「承諾太深」——兩隻海怪各據一邊,中間的航道很窄。
第三,「過了一半謬誤」是每個人都該警惕的思考病。 說 70% 下雨而沒下並不代表錯。學會用機率而非黑白來思考、並接受「我可能 30% 的時候會看起來像笨蛋」,是成為好預測者(與公平評判者)的前提——這也正是薛曼·肯特「貼數字範圍」的提案半世紀以來幾無進展、機構寧可躲在橡皮筋詞背後的深層原因。
第四,這本書其實是一本關於「如何不被自己騙」的書。 從蓋倫的確認偏誤、考克蘭的偷天換日,到回憶被後見之明扭曲 31 個百分點、佛林將軍連 Google 都懶得查就誤判時局——它反覆證明:人類心智天生是個編故事的機器(從裂腦病人到「道瓊上漲是因為……」的記者皆然),而準確的代價,是持續、費力、不舒服地監控自己的故事。
第五,領導與謙遜並不矛盾,關鍵在「智識謙遜 ≠ 自我懷疑」。 任務式指揮給了一個出乎意料的橋樑:把「做什麼」與「怎麼做」分開,就能同時要求果斷的執行與謙遜的判斷。安妮·杜克那句「對遊戲的謙遜,跟對對手的謙遜是兩件事」值得每個既要做決定、又怕自己看走眼的人記住。
最後,本書並不浪漫。 它直言命運感與意義感讓人快樂卻讓人預測得更糟,也承認痛苦往往是成為超級預測者的起點。它要的不是讓你感覺良好,而是讓你看得更清楚。在這個假新聞與信誓旦旦的名嘴氾濫的時代,這份冷靜的、可被檢驗的、肯認錯的求知態度,或許正是最稀缺的東西。
本書關鍵觀念清單
- 樂觀的懷疑論者:承認可預測性有硬性極限(混沌、蝴蝶效應),但相信任何肯下功夫的人都能培養出真實的先見之明。
- 狐狸與刺蝟:刺蝟用一個大觀念解釋一切、過度自信且預測較差,名氣還與準確度成反相關;狐狸博採多源、談機率、肯改口、預測較準。
- 可預測性的時鐘與雲:世界由可預測(時鐘)與不可預測(雲)的系統共存組成,一件事多可預測取決於預測什麼、多遠、在什麼情境,「時鐘 vs 雲」只是諸多比喻之一。
- 系統一與系統二:系統一快速自動地給答案(「鼻尖視角」,關不掉),系統二費力地質詢那個答案;多數錯誤源於系統二懶得介入(球棒與球測驗)。
- WYSIATI(你所見即一切):系統一把手邊有限的證據當成可靠且充分,這是諸多認知錯覺之母(佛林將軍誤判時局即一例)。
- 偷天換日(屬性替代):面對難問題時,無意識地用一個簡單問題取代它來回答(考克蘭、弗萊克的安倍題皆然)。
- 確認偏誤:抓住第一個合理解釋、只蒐集支持證據、貶低或丟棄反向證據(蓋倫、奧斯陸案);解藥是問「什麼會說服我我是錯的?」
- 校準度(calibration):你說某機率會發生的事,長期實際發生的比例是否吻合該機率。
- 鑑別度(resolution):敢給會發生的事高機率、不會的事低機率的果斷程度;我們想像的「完美預測」其實是滿分鑑別度。
- 布萊爾分數(Brier score):衡量預測與實際距離的計分,完美為 0、五五波為 0.5、極端錯誤為 2.0;需公平的競技場與蘋果對蘋果的基準(鳳凰城 vs 春田)才有意義。
- 過了一半謬誤:用機率落在「也許(50%)」的哪一邊來論斷預測對錯,忽略機率語言本身(70% 下雨而沒下並不算錯)。
- 費米估計:問「要讓這件事成真,什麼必須為真」,把大問題拆成可知與不可知的子問題逐一估算,把猜測攤在陽光下檢視(芝加哥鋼琴調音師)。
- 外部觀點與內部觀點:先用「這類事件通常多常發生」的基本比率定錨(對抗錨定效應),再用個案細節做有目的的「調查」而非「散步」。
- 蜻蜓眼:在一個腦袋裡綜合多重視角(正、反、合)成單一判斷,模擬複眼三萬個小晶體的卓越視覺;內在群眾與反向措辭是其工具。
- 主動開放式思考(AOM):不只被動開放,而是主動尋找與自己相反的證據與視角(「這是學一點關於迦納的機會」)。
- 機率的細緻度(granularity):用單一百分點而非十的倍數思考,並避免空洞的 50%;超預者的精細經實驗證明是真精確。
- 知識性 vs 偶然性不確定性:前者理論上可知(時鐘式挑戰),後者本質不可知(雲式問題,確保生活永遠有驚喜)。
- 許多小更新:靠頻繁而幅度小的信念更新逼近真相,避開反應不足(司庫拉)與過度反應(卡力布狄斯)兩個極端(明托船長)。
- 貝氏更新:後驗賠率 = 似然比 × 先驗賠率;依新證據的診斷價值按比例調整先驗信念,漸進接近真相而不消除全部不確定性。
- 永遠的測試版(perpetual beta):把自己當成永不發布、持續改進的程式;是預測能力最強的單一預測因子,約為智力的三倍;超級預測是 75% 汗水、25% 靈感。
- 成長心態與恆毅力:相信能力來自努力(杜維克)、並對長期目標熱情堅持(達克沃斯),配上清楚及時的回饋,是自我精進的引擎。
- 群眾智慧與聚合:把獨立判斷加總可讓有效資訊堆疊、隨機誤差抵銷(高爾頓猜牛),但獨立性流失時就會變成鬱金香狂熱式的群眾瘋狂;多元勝過能力。
- 群體迷思與超級團隊:親切的一致被誤當成群體正確(豬玀灣);解方是合作但不順從、建設性對抗、精確提問與心理安全(古巴飛彈危機),超級團隊能讓個人準確度再升 50%。
- 任務式指揮(mission command):告訴部屬目標與原因、但不規定方法,把決策權下推給現場的人,調和了領導所需的果斷與預測所需的謙遜(毛奇、艾本-埃馬爾、巴頓)。
- 智識謙遜 vs 自我懷疑:謙遜是認知現實極複雜、判斷必有錯,與「對自己能力有信心」可並存(安妮·杜克:對遊戲謙遜 ≠ 對對手謙遜)。
- 低估對手與虛幻相關性:別假設「兇暴的政權必然無能」,把事實判斷與價值判斷分開,是準確的前提(用國防軍當教材的方法論辯護)。
- 範圍不敏感:人對「範圍」(湖的數量、油鴨的數量、時間框架)麻木,因為回答的是「這讓我感覺多糟」;超預者把系統二修正練成系統一習慣而克服它。
- 黑天鵝與灰天鵝、厚尾分布:罕見而高後果的事件本身難以預測(且許多其實是可想像的灰天鵝),但組成其後果的一連串小問題往往可預測;歷史機率可能是厚尾的,故須「為驚訝做規劃」(計畫無用,規劃不可或缺)。
- 實證預測革命:仿照實證醫學(寇德曼的結果系統),讓預測接受系統性記分與同儕檢驗;用好問題(拍額頭測驗)、貝氏問題群組(點描派)、對抗式合作去極化推動——前提是「每一邊都想要對,但他們更想要真相」。