← 報告總覽 相關 wiki →

讀書報告:《博弈論》(Game Theory,馮·諾依曼與賽局理論科普)

介紹約翰·馮·諾依曼(John von Neumann)所開創之賽局理論(博弈論)的中文科普書。本報告據書庫的繁體中文版製作(簡中 OpenCC 轉繁中)。

開篇:把「人與人的算計」變成數學

長久以來,人們想用數學處理經濟與社會問題,卻總是成效有限——因為舊方法照搬物理學,把社會當成一個被動運轉的系統列方程式求解。但經濟與社會生活不是物理系統,而是一場「由多人參與的博弈」:每個人都在規則下盤算如何讓自己的利益最大化,而且彼此的選擇互相牽動。約翰·馮·諾依曼正是換了這個視角,才開創了賽局理論——這門被譽為「社會科學的數學」的學問。

這本科普書把賽局論的精華梳理得清楚好讀:從最基本的玩家、策略、報酬矩陣,到零和與非零和、合作與非合作的分類;從無人不曉的「囚徒困境」(個人理性導致集體次優),到馮·諾依曼奠基的「minimax 定理」與「混合策略」、納許推廣的「納許均衡」;再到阿克塞爾羅德用電腦競賽證明的「合作如何演化」(一報還一報)、海盜分金與懦夫賽局等經典謎題,以及賽局論在商場、軍事、生物演化中的應用。書末則描繪了馮·諾依曼這位百年難遇的天才——賽局論之父、電腦架構之父、曼哈頓計劃的關鍵功臣——的傳奇一生。

這本書在書庫裡與《窮查理寶典》(芒格的「多元思維模型」正包含賽局論這把跨學科的刀)、《底層邏輯》(劉潤的結構性思維與博弈視角)相互呼應;它對「囚徒困境、合作如何在重複互動中演化」的分析,也能與《國家為什麼會失敗》談的集體行動與制度問題對照。以下分兩節:先講基本概念,再講應用與延伸。


一、賽局論的基本概念

1. 從棋局到方程式:賽局論是什麼,以及它如何誕生

人們很早就懂得用數學去處理經濟問題,但長久以來成效有限。本書一開頭便點出原因:過去的嘗試多半照搬物理學的做法,替系統列出導數方程式,再藉方程式預測系統未來的走向。可是經濟生活並不是一個被動運轉的物理系統,而是一場「由多人參與的博弈」——每個參與者都在規則約束下,盤算著如何讓自己的利益最大化,而且彼此的選擇會互相牽動。約翰·馮·諾依曼正是換了這個視角,才打開了局面。

書中給賽局論下的定義樸素而精準:它研究的是帶有鬥爭性與競爭性的現象,是「個人或團體在一定規則約束下,依據各自掌握的關於別人選擇的資訊,決定自身行為或策略」的過程。因為主要工具是數學,它被歸為應用數學的一支,也是運籌學的重要學科;又因為它把人與人之間的算計講得如此透徹,而得了個別號——「社會科學的數學」。它還有兩個我們較熟悉的名字:對策論,以及賽局理論。

本書用了一個貼切的比喻:世事如棋。把世界看成一張大棋盤,每個人都是下棋的人,每一個行為都是落下的一顆棋子。棋手們彼此揣摩、相互牽制,「我猜你會怎麼走,你又猜我猜你會怎麼走」,如此往復,問題愈滾愈複雜。即使最簡單的兩人對弈,只要雙方都絕頂理性、記得住每一步,這層層相套的推理也足以讓人迷失。賽局論要做的,就是把這團迷霧抽象成數學問題,從複雜現象中抽出本質元素、建立模型,再求出最合理的策略。

賽局論的源頭,正是下棋、打牌、賭博這些古老遊戲。中國古代其實早有這類思想,孫武的《孫子兵法》既是兵書,某種意義上也是一部賽局論專著;只是那時人們僅憑經驗把握局勢,尚未上升為理論。真正讓它成為一門學科的,是二十世紀初的幾位數學家:策梅洛第一次嘗試用數學方法研究博弈,波雷爾大力推動了它的發展。而集大成的關鍵一步,落在馮·諾依曼身上——他在一九二○年代正式創立了現代賽局理論,並於一九四四年與經濟學家奧斯卡·摩根斯坦合著《賽局理論與經濟行為》一書,標誌著現代系統賽局理論的初步成形。這本書的開創地位,在於它第一次對賽局進行了系統化、形式化的研究,並把賽局論正式引入經濟學,從此成為現代經濟分析的主要工具。日後納許、塞爾頓、哈桑尼等人沿著這條路繼續走,讓賽局論在經濟學、生物學、政治、軍事乃至電腦科學裡遍地開花,多座諾貝爾經濟學獎都與它有關。

2. 一場博弈的零件:玩家、策略、報酬與它的種種分類

要理解任何一場博弈,得先認得它的零件。本書把博弈拆成五個要素:局中人、策略、得失、次序、均衡。局中人就是參與者,每個人都能決定自己的策略,卻無法替別人做主——這是整套理論最根本的張力所在:你只能控制自己的選擇,卻得在不知道對手會怎麼選的情況下做決定。若場上只有兩人,叫兩人博弈;超過兩人,則是多人博弈。

所謂策略,不是某一回合的臨時動作,而是一套貫穿整場博弈、從頭到尾的完整行動計畫。書中對它有個很傳神的說明:局中人彷彿在開局前就設想了一切可能發生的情形,並對每一種情境、每一條他屆時會掌握到的情報,都預先寫好了對應的選擇——這份完整計畫,就是一個策略。至於得失,則是博弈結束時的結果,它同時取決於兩件事:自己選的策略,以及其他人選的策略;把所有人的策略對應到各自結果的那個函式,稱為支付函式(報酬函式)。當參與者人數不多、策略有限時,這些得失就能整齊地排進一張報酬矩陣裡,讓每一組策略組合對應的輸贏一目了然。次序講的是決策的先後,先後不同,結局也會不同;均衡則是博弈趨於穩定的那個結果。

依據不同標準,博弈可以切成好幾類,而這幾組分類撐起了全書的骨架。其一,看參與者之間有沒有達成具約束力的協議:有,就是合作博弈;沒有,就是非合作博弈。經濟領域談得最多的是非合作博弈,它通常比合作博弈單純,理論也更成熟。其二,看行動有沒有時間先後:大家同時出手、或後手不知道先手選了什麼,叫靜態博弈;行動有先後、且後手看得到先手動作的,叫動態博弈——下棋打牌屬於後者,而著名的囚徒困境因為兩人是同時、互不知情地做決定,正是典型的靜態博弈。其三,看彼此了解的程度:每個人都清楚所有對手的資訊(個人特徵、報酬函式、策略空間),是完全資訊博弈;反之則是不完全資訊博弈。最有名的一組對照,則是依輸贏總和來分的零和與非零和:零和博弈中一方所得恰等於另一方所失,一人贏必有一人輸,淨獲利相加永遠為零,兩人下棋、打乒乓球都是如此;非零和博弈則未必你死我活,存在著雙贏或共輸的空間——囚徒困境正是非零和博弈最經典的代表。

3. 囚徒困境:當個人理性走向集體次優

如果說賽局論有一個無人不曉的故事,那就是囚徒困境。它被本書稱為「賽局論和非零和博弈中最經典的一個例子」,一句話便道破它的精髓:在某些情況下,那些對個人有利的選擇,對整個團體而言反而並非有益。這個模型在一九五○年代由弗勒德與德雷希爾提出,再由蘭德公司的塔克用「囚徒」的形式表述出來並正式命名。

故事是這樣的:兩名共謀犯同時被捕、無法串供。若兩人都不揭發對方,警方苦無確證,只能各判較輕的刑(比方一年);若一方揭發、另一方沉默,揭發者立功減刑甚至獲釋,沉默者則被重判十年;若兩人互相揭發,證據齊全,各判八年。把這幾種結果擺進報酬矩陣一看,弔詭之處就浮現了:站在任何一個囚徒的角度,不管對方招不招,「招供」永遠是對自己更划算的選擇——對方沉默時招供能換來最輕的下場,對方招供時招供也能避免獨自重判。於是兩個都精明理性的囚徒,各自順著自利的邏輯走,最後雙雙選擇互相揭發,落得各判八年的結局。明明兩人都閉嘴才是對彼此都好的結果(各判一年),理性卻把他們推向了集體的次優。這正好印證了納許的非合作博弈理論。

囚徒困境的真正份量,在於它絕不只是個牢房裡的智力題。本書反覆強調,它在現實生活裡有無數鮮活的翻版。第六章談到的幾個現實博弈,本質上都是囚徒困境:商家之間的價格戰,人人都知道殺價會虧本,卻誰也不敢不殺,最後同歸於零利潤;發展經濟與環境保護之間的污染博弈,單一企業若獨自自願購置環保設備、抬高成本,產品就失去競爭力,於是大家都選擇不顧污染只求利潤;國與國之間的貿易戰,你加關稅、我也加關稅,陷入永無休止的雙輸。從經濟、社會到國際關係,只要「個人的最佳選擇加總起來卻傷害了集體」,囚徒困境的影子便如影隨形——這也是為什麼世界貿易組織與各國政府要反對企業壟斷、推動合作。

4. 納許均衡、minimax 定理與混合策略:博弈為何會停在某一點

既然博弈會趨於穩定,那個穩定點究竟長什麼樣?答案就是納許均衡。馮·諾依曼的後繼者約翰·福布斯·納許給出的概念是:在這個點上,當其他人都不改變策略時,每個參與者當下的策略都已是自己的最佳選擇——任誰只要單方面改弦更張,利益都只會受損。因此只要參與者都保持理性,停在納許均衡點上時,就沒有人有改變策略的衝動。前面提到的價格戰打到零利潤、污染博弈裡大家都不顧環境,其實都是一種納許均衡:對任何單獨一方而言,偏離現狀並無好處,於是局面就僵在那裡。本書也誠實地指出它的侷限:納許均衡只考慮「自己不單方面改變」,卻忽略了別人也可能同時調整策略,因此在不少情況下說服力不足,有人半開玩笑地稱之為「天真可愛的納許均衡」。納許用不動點定理證明了:只要參與者的純策略有限,兩人博弈中必然至少存在一個均衡點——找到博弈的不動點,就等於找到了納許均衡。

不過,把這套穩定點的思想第一個用數學嚴格立住的,是馮·諾依曼本人,而他靠的是 minimax(最小最大)定理。馮·諾依曼最早只徹底解決了兩人零和博弈。把下棋這類對局抽象之後,問題變成:已知參與者、策略集合與報酬,如何找到那個讓雙方都覺得最合理的「平衡」?他採用的是傳統決定論裡的「最大最小原則」:每個人都先設想對手會採取讓自己損失最慘重的策略,再據此選出能把這個最壞損失壓到最小的最優策略。馮·諾依曼用線性運算等數學工具證明了,兩人零和博弈中必定存在這樣一個「最小最大解」。它的深意在於:這個最優策略所能保障的收益,並不依賴對手怎麼操作——說穿了,就是「抱最好的希望,做最壞的打算」。

但有些博弈光靠固定的「純策略」是解不開的,猜硬幣、剪刀石頭布就是如此。書中以猜硬幣為例:你出正面,對手若猜到就出反面贏你;你改出反面,對手又跟著改——如此無限循環,任何固定打法都會被對方識破。馮·諾依曼的破解之道是混合策略:不再死守某一面,而是按一定機率(例如正反各二分之一)隨機決定出哪一面。這樣一來,即使對手再理性、甚至知道你的整套策略,他能贏的機率也只剩一半,你對整場賽局的期望值穩穩鎖在零,利益不致受損。一句點睛的話是:「如果你不想讓對手知道自己的秘密,那麼自己也不要(提前)知道」——用擲硬幣來決定行動,連自己都猜不到的選擇,對手自然更無從預測。書中還借福爾摩斯為躲避莫里亞蒂教授、在多佛港與中途的坎特伯雷站之間如何下車這段情節,把它演成一場活生生的猜硬幣博弈。正是靠著引入混合策略,馮·諾依曼把整個兩人零和博弈的問題徹底解決了,也為後來納許把均衡推廣到更一般的博弈鋪好了路。


二、賽局論的應用與延伸

從囚徒困境到「一報還一報」:合作如何演化出來

賽局論最迷人的部分,不在於證明理性的人會互相算計,而在於它意外地解釋了「合作為什麼會出現」。這條線索的核心,是書中反覆出現的羅伯特·阿克塞爾羅德(Robert Axelrod)與他的電腦競賽。

故事的起點是囚徒困境。兩名共謀犯被分開審訊:若都保持沉默,各判一年;若一人揭發、一人沉默,揭發者立即獲釋、沉默者重判十年;若互相揭發,則各判八年。對每個囚徒來說,無論對方怎麼選,背叛永遠比合作划算,於是兩個「理性人」最終雙雙揭發,落得各判八年——這正是納許均衡,卻是對雙方都更糟的結果。個人理性與團體理性的矛盾,在這裡暴露無遺。書中把它換成更乾淨的計分賽局:雙方都合作各得三分,都背叛各得一分,一方背叛、一方合作則背叛者得五分、合作者得零分。若只玩一次,背叛是唯一理性的選擇。

阿克塞爾羅德追問的是:如果這場賽局要反覆玩很多次,而且沒有人知道何時結束,結果會不會不同?他設計了一場前所未有的競賽——邀請各路高手把自己心目中得分最高的策略寫成電腦程式,讓這些程式兩兩循環對弈三百回合,看誰的總分最高。第一輪有十五個程式參賽,奪冠的卻是其中最簡單的一個:加拿大學者羅伯布提交的「一報還一報」(tit-for-tat)。它的規則簡單到近乎天真:第一步先合作,之後完全模仿對手上一步的動作——對方上次合作,我這次就合作;對方上次背叛,我這次就背叛。

阿克塞爾羅德分析後發現,得分高的程式有三個共通氣質:一是「善良」,從不主動背叛;二是「可激怒」,被欺負了會還擊,不會一味退讓;三是「寬容」,對方一旦回頭合作,便既往不咎,不沒完沒了地報復。他不死心,公布結果後又辦了第二輪,這次有六十三個程式參賽,許多人專門針對「一報還一報」設計剋星——結果它再度奪冠。前十五名幾乎全是「善良」的程式,後十五名幾乎全是「不善良」的。阿克塞爾羅德還補充了第四個特質「清晰性」:好策略往往簡單透明,對手幾個回合就能摸清規律,從而明白唯有合作才划得來。

真正震撼的是第三輪「演化實驗」。他讓得分高的程式在下一代占更高比例,模擬一個會繁殖、會遺傳、會試錯學習的生物群體。「一報還一報」起初只占六十三分之一,一千代之後卻壯大到約百分之二十四;那些靠佔便宜得高分的投機策略,先是憑初始優勢膨脹,等到牠們賴以剝削的「冤大頭」被淘汰殆盡,自己也跟著衰亡。書中由此導出一個鼓舞人心的結論:只要群體中有至少百分之五的成員堅持善良的合作策略,他們就能存活、擴張,最終取代整個群體。社會是朝著合作演化的,而且這個方向不可逆轉。阿克塞爾羅德把這稱為「互惠式利他」——動機是私利,結果卻是雙贏。書中還順手把它接上中國的老話:「投桃報李」「以德報德,以直報怨」,認為孔子「以直報怨」其實是一種更高明的「修正版一報還一報」,用公正而非加倍的報復來回應背叛,從而打破世代冤冤相報的魔咒。

經典謎題:海盜分金與懦夫賽局

書中用一連串謎題,把抽象的均衡概念變得可觸可感。最精彩的是「海盜分金」。五名海盜搶得一百枚金幣,按抽籤順序依次提出分配方案,需超過半數同意才通過,否則提案者被扔下海。直覺上,第一個提案的海盜最危險,但只要從最後兩人往前倒推,結論會徹底翻轉:到只剩兩人時,最後一人無論如何投反對票也沒用,於是局勢層層回推。一號海盜算準每個人「不同意就會落到更差處境」的底線,只需用一兩枚金幣收買特定幾人,便能穩穩拿走九十七枚。這就是逆向歸納法的威力——最該死的人反而搶得最多,最安全的人卻只能勉強保命。不過書中也誠實地補一句:這一切建立在「所有海盜都絕頂聰明且理性」的理想假設上,現實裡只要有人算錯,或四人臨時改規則先幹掉一號再平分,結論立刻崩塌。它真正想說的,反倒是「規則」與「先機」的重要。

另一個常被誤譯的例子是「懦夫賽局」(Chicken Game,書中指出 chicken 在美式口語裡是「懦夫」,「鬥雞」其實是音譯之誤)。兩人狹路相逢或開車對撞,誰先轉向誰丟臉,但若雙方都不退讓便兩敗俱傷。它有兩個純策略納許均衡——你進我退、或你退我進——問題是事先沒人知道會落到哪一個,這正是冷戰核對峙的數學影子:雙方都在用毀滅威脅逼對方先眨眼。書中還借這個賽局點出一個方法論要害:當賽局只有一個均衡點時結果可預測,一旦出現多個均衡,就必須掌握更多細節資訊才能判斷誰進誰退。

賽局論的舞台:商場、戰場與演化

賽局論最落地的應用是在商業競爭。書中藉波特五力模型裡「潛在進入者的威脅」,示範壟斷者如何用賽局思維築起壁壘。關鍵在於「威脅必須可信」——空口宣示沒有成本,也就嚇不走人,唯有付出代價的承諾才算數。於是有了「保證最低價格」策略:商家承諾若他處更便宜就退差價加賠償,這既是給消費者的承諾,更是對競爭者「別來打價格戰」的警告,而且因為受法律約束而無法反悔,可信度滿格。書中用兩期市場的算式說明:先壓低價格讓潛在對手算出「進來也是零利潤」,反而能在第二期安心收割壟斷高價。此外還有把價格砍到成本以下、寧可短期虧損也要把對手逼出場的「掠奪性定價」,以及用巨額廣告當品質訊號的「廣告戰」——爛產品不敢砸廣告,因為留不住回頭客。古諾模型與伯川德模型,則分別刻畫產量競爭與價格競爭的博弈。

往外延伸,賽局論的觸角遍布經濟學、軍事與生物學。在經濟學裡,馮·諾依曼用它取代了把經濟硬套成力學問題的舊數學工具,讓多方議價、合作與利益分配第一次有了嚴謹的分析框架。在軍事上,它在二戰與冷戰中大放異彩:馮·諾依曼的學生佛勒德用賽局方法替原子彈的投放與轟炸策略求最優解,使轟炸機被擊落的機率最小化;而「核威懾」本身就是一場誰也不敢先動手的恐怖平衡。在生物演化中,阿克塞爾羅德的演化實驗顯示,連沒有預見能力的低等生物乃至植物之間都能演化出合作,證明合作不必依賴友誼或信任,只需「持續的互動」加上「有回報也有懲罰」這兩個條件。書中也不忘提醒它的限制:阿克塞爾羅德假設參與者實力對等,可現實中強弱懸殊時弱者的報復毫無意義;一旦對手抱著賭徒心理,得分矩陣便不再適用——這時就得引入法律的懲罰,來替代個人層面的「一報還一報」。

馮·諾依曼:一位百年難遇的天才

這套理論的源頭,是一位近乎神話的人物。約翰·馮·諾依曼一九〇三年生於布達佩斯一個猶太銀行家家庭,從小便是傳奇:六歲能用希臘語說笑話、心算八位數乘除,八歲就懂微積分,十歲花幾個月讀完四十八卷的世界史並做古今對照,十二歲已能讀懂波萊爾的《函數論》。他求學方式更奇特——註冊布達佩斯大學數學系卻幾乎不去上課,只按時回去考試且門門拿 A,同時在柏林、蘇黎世攻讀,最終一手拿下數學博士、一手拿下化學學士,是不折不扣的自學天才。

他的貢獻奠定了兩個時代。一九二八年,他證明了賽局論的基石「最大最小定理」(minimax)——兩人對局時,在每種策略可能造成的最大損失中選最小的那個,就是最優策略;一九四四年又與經濟學家摩根斯坦合著《博弈論和經濟行為》,把賽局論系統地引入經濟學,被譽為「二十世紀前半期最偉大的科學貢獻之一」。二戰中他是曼哈頓計劃的關鍵功臣:算出鈾與鈽的臨界質量,更發明了比「槍式」更難也更高效的「內爆式」引爆裝置,長崎的「胖子」正是用此原理。戰後他又投身電腦研製,參與 ENIAC,並在一九四五年提出「儲存程式通用電子電腦方案」——也就是後世所稱的「馮·諾依曼架構」,至今仍是電腦設計的根基。書中那則「蒼蠅與兩車」的軼事最能見其神采:旁人以為他是用巧妙的轉化捷徑秒答,他卻淡淡地說「我正是用無窮級數求和算的」——他的腦子快到把無窮級數當心算。一九五五年他查出癌症,一九五七年二月於華盛頓病逝,輝煌人生戛然而止。然而,正如書中反覆提醒的,賽局論再強大,也建立在「理性人」「資訊對等」等理想假設之上;現實的複雜、信任與情感,始終是它難以完全收編的邊界。


三、評析:一把跨學科的思考利器,與它的理想化邊界

它的價值

這本書的長處,是把一門看似艱深的應用數學,講得人人能懂、處處有共鳴。賽局論的真正威力,在於它提供了一副「看穿人際與群體算計」的眼鏡:一旦你理解了囚徒困境,就會在價格戰、軍備競賽、環保搭便車、貿易戰裡反覆看見它的身影;一旦你理解了納許均衡,就明白為什麼許多「明明大家都更好」的局面卻僵在次優而動不了。書中對「合作如何演化」(一報還一報的善良、可激怒、寬容、清晰)的鋪陳尤其精彩——它替「為什麼自利的人類社會仍會演化出合作與道德」這個大哉問,給了一個既冷靜又溫暖的答案。馮·諾依曼的傳記部分也讓抽象理論有了血肉。

該保留的幾分保留

但賽局論的力量,建立在幾個理想化的假設上,這本書也誠實地點了出來。其一,「完全理性」是強假設:現實中人會犯錯、有情緒、抱賭徒心理、資訊不對等,一旦偏離理性,許多漂亮的均衡解就不成立(海盜分金一旦有人算錯就崩)。其二,實力對等假設:阿克塞爾羅德的一報還一報假定雙方勢均力敵,但強弱懸殊時弱者的報復毫無意義,模型就得讓位給法律與制度。其三,作為一本科普書,它重普及、輕嚴謹:對 minimax、納許均衡的數學證明只能點到為止,部分章節(如企業管理應用)夾帶了較多泛泛的「和諧共贏」式議論,深度有限。把它當成「賽局思維的入門地圖」最為合適,想深究仍須回到更專業的教材。

與書庫其他書的對話

這本書在書庫裡,是「跨學科思維工具」這條線的一塊拼圖。它與《窮查理寶典》最為相得益彰——芒格主張用一籃子「多元思維模型」做決策,而賽局論正是其中一把關鍵的刀(囚徒困境、誘因、競爭動態都是芒格反覆援引的)。它與《底層邏輯》(劉潤)的「系統=要素×連接」「博弈與賽局」思維同源,都是教人看穿表象下的結構。它的「囚徒困境/集體行動難題」直接關聯《國家為什麼會失敗》——為什麼明知合作更好,社會卻可能困在榨取式的次優均衡裡動不了,正是同一個邏輯的政治經濟版。而「核威懾=懦夫賽局」「冷戰是一場巨型博弈」的視角,又能與《經濟戰爭時代》《變化中的世界秩序》談的大國博弈互相印證。對任何想理解「人與人、國與國如何在競爭中算計與合作」的讀者,這都是一本好用的入門書。

一句話的收束

賽局論留給讀者最深的一課,或許是它對「合作」既冷靜又樂觀的洞察:在一個人人自利的世界裡,只要互動會持續、背叛會被回敬、善意會被回報,合作仍然能夠演化出來、並且壯大到取代背叛——這既是數學的結論,也是文明何以可能的隱喻。

本書關鍵觀念清單

一句話定義,供 wiki 觀念抽取與跨書連結用。