Skip to main content

博弈论合作法则:让每次合作都成为全体共赢的局

· 32 min read

核心逻辑:本文从博弈论的第一性原理出发,构建一套在任何合作中都能让「全体得利、自己不失」的行动框架。第一部分(为什么合作这么难):从囚徒困境出发,解释个体理性为什么天然导向集体非理性,以及为什么你需要一套框架来对抗这种本能。第二部分(重复博弈:合作的数学基础):揭示「长期关系」如何从根本上改变博弈的均衡——单次博弈鼓励背叛,重复博弈鼓励合作。第三部分(核心策略:Tit-for-Tat 及其进化):详解 Axelrod 竞赛中胜出的合作策略——友善、报复、宽容、清晰——以及它的现代变体。第四部分(帕累托改进:找到让所有人都更好的方向):如何在实际合作中找到「没有人变差、至少有人变好」的方案,这是你每次提案前的检查清单。第五部分(Shapley 值:贡献决定分配):如何在你主导的合作中公平分配利益,让关键人物觉得「跟你合作太值了」。第六部分(联盟策略:带谁入局、不带谁入局):从合作博弈的「核」出发,讲如何构建稳定且对你有益的联盟。第七部分(完整行动法则):将以上所有概念整合为十条可操作的「博弈论合作法则」。


一、为什么合作这么难:个体理性与集体理性的冲突

博弈论的起点是一个令人不安的发现:理性的个体,在没有外部干预的情况下,会系统地做出损害集体利益的选择。

这不是因为人坏,而是因为博弈结构本身决定了均衡。

1.1 囚徒困境:合作不是「默认选项」

囚徒困境是博弈论中最经典的模型。两个共犯被捕,隔离审讯。规则如下:

玩家 A \ 玩家 BB 合作(不招供)B 背叛(招供)
A 合作(不招供)各判 1 年A 判 10 年,B 释放
A 背叛(招供)A 释放,B 判 10 年各判 8 年

现在你是 A,你会怎么选?

  • 如果 B 合作,你背叛就释放(比合作判 1 年好)→ 背叛更好
  • 如果 B 背叛,你背叛判 8 年(比合作的 10 年好)→ 还是背叛更好

无论 B 怎么选,背叛都是对你最有利的。 这就是博弈论中所谓的「严格占优策略」。但问题来了——两个人都这么想,结果是各判 8 年,远比各判 1 年糟糕。

这个悲剧的核心不是信息不对称(虽然隔离审讯加剧了它),而是激励结构本身:在单次博弈中,背叛的边际收益永远大于合作的边际收益。

1.2 纳什均衡 vs 帕累托最优:两种「好」不是一回事

囚徒困境中,(背叛,背叛)是一个纳什均衡——双方都无法通过单方面改变策略来改善自己的处境。

但(合作,合作)才是帕累托最优——没有任何其他结果能让至少一个人变好而不让另一个人变差。

这两个概念的张力,是理解一切合作的核心:

概念含义囚徒困境中的表现
纳什均衡个体最优的稳定状态:谁单方面改策略谁吃亏(背叛,背叛)——我不改,你也不改
帕累托最优集体最优状态:再往前一步必有人受损(合作,合作)——谁想更好就得让另一个人更差

整个合作方法论的核心矛盾就是:如何让帕累托最优成为纳什均衡。 如果做不到,合作就是不稳定的——靠道德和感情可以撑一时,但激励结构会把人拉回背叛。

1.3 人生中到处都是囚徒困境

囚徒困境不是实验室里的玩具,它发生在你每天的生活中:

场景合作(对集体好)背叛(对自己好)纳什均衡
团队项目每个人都尽心尽力搭便车让别人多干活大家都留一手
知识分享每个人都分享所学只索取不贡献没人认真分享
朋友互推互相推荐机会只接受推荐不推荐别人互相不再推荐
合伙创业都全力投入一方偷偷准备退路各怀心思
向上管理共享 credit独占功劳互相提防

如果你不理解这些场景的博弈结构,你就会被动地成为「纳什均衡」的一部分——大家一起吃亏。 博弈论的价值不是让你去算计别人,而是帮你理解结构,然后主动改造结构。


二、重复博弈:合作的第一性原理

如果囚徒困境只发生一次,合作没有数学基础。但如果它是无限次或不确定次数重复的——一切都变了。

2.1 为什么重复改变一切

在重复博弈中,你今天的背叛会带来明天的惩罚。如果未来足够重要,合作就变成了理性选择。

通俗证明:假设每次合作的收益是 3(各得 3),背叛的收益是 5(你得 5,对方得 0),互相背叛的收益是 1(各得 1)。折扣因子是 δ(10 天后的一块钱今天值多少钱)。

  • 合作:今天得 3 + 明天得 3 + 后天得 3 + ... = 3/(1-δ)
  • 背叛一次然后被永久惩罚:今天得 5 + 明天起每天得 1 + ... = 5 + δ/(1-δ)

如果 3/(1-δ) > 5 + δ/(1-δ),即 δ > 2/3,那么合作就是理性的。

翻译成人话:只要你足够在乎未来(δ 足够高),合作就是最优策略。反过来,如果你觉得「以后不会再见了」或者「以后不重要」,背叛就成了最优策略。

2.2 这意味着什么

这个看似简单的数学结论,有极其深刻的实践含义:

洞察行动启示
长期关系天然鼓励合作优先和「还会再见」的人深度合作;警惕「一锤子买卖」
未来不确定时合作瓦解如果你让对方觉得没有未来,对方就会背叛——所以你要主动传递「未来可期」的信号
你可以主动拉长博弈把一次性的交易变成长期关系,把单项目合作变成多项目合作
最后一次背叛是理性选择任何已知终点次数的重复博弈,理论上最后一轮都会背叛——所以不要让合作有「明确的终点」

核心原则——把每一次合作都设计成「无限次重复博弈」

不要签「我们就合作这一次」的合同(即使内心知道可能只有一次)。让每次合作都像是一个更长故事的开始。这不是心机——这是用正确的激励结构引导正确行为


三、Tit-for-Tat:被数学证明最优的合作策略

1980 年代,政治学家 Robert Axelrod 举办了一场著名的计算机博弈竞赛。他邀请全球的博弈论专家提交策略,在重复囚徒困境中两两对战,最终按累计得分排名。

3.1 竞赛结果

参赛策略五花八门:有极其复杂的机器学习算法,有用心理学模型预测对手的,有永远背叛的,有永远合作的。

冠军是一个只有 4 行代码的策略——Tit-for-Tat(以牙还牙),由数学家 Anatol Rapoport 提交。它简单到令人尴尬:

  1. 第一轮:合作
  2. 之后每一轮:重复对手上一轮的行为

Axelrod 后来又办了第二届竞赛,62 个策略参赛,Tit-for-Tat 再次夺冠。

3.2 Tit-for-Tat 的四条基因

Axelrod 在《合作的进化》一书中总结了 Tit-for-Tat 成功的四个关键属性,这四条属性构成了合作策略的「基因」:

属性含义为什么重要
友善(Nice)从不首先背叛友善策略之间可以形成正向循环;先背叛的策略会触发报复螺旋,最终得分都低
报复(Retaliatory)被背叛后立刻反击让背叛者为自己的行为付出代价,形成威慑。不报复等于告诉对方「你可以随便欺负我」
宽容(Forgiving)对方回到合作后立刻停止报复报复后不翻旧账,给对方回到合作轨道的通道。记仇的策略会让一次误伤变成永久决裂
清晰(Clear)行为模式简单可预测对方能看懂你,才能配合你。太复杂的策略会让对方困惑,反而诱发误解和背叛

友善确保你不制造敌人。报复确保你不被欺负。宽容确保争执不升级为永久对立。清晰确保别人知道怎么跟你合作。

3.3 从 Tit-for-Tat 到 Generous Tit-for-Tat

Tit-for-Tat 有一个致命弱点:它对「噪声」极度敏感。在现实世界中,「噪声」就是误解、信息不对称、无心之失。

比如,对方其实选择了合作,但信息传递出错了,你以为他背叛了。Tit-for-Tat 会立刻报复,对方看到你的报复也会报复回来——于是合作永久崩溃了。

Generous Tit-for-Tat 的改进:当对方背叛时,你以一定概率(比如 10%)仍然选择合作。这相当于给对方一个「可能是噪声」的容错空间。

策略合适的环境不合适的环境
标准 Tit-for-Tat低噪声、高信任容易误解的复杂协作
Generous Tit-for-Tat有噪声、关系复杂对方就是你死我活的对手

行动启示对于关键人物,使用 Generous Tit-for-Tat——假设他们的「背叛」可能是无意或被迫的,给他们回到合作的通道。 关键人物的一次背叛可能不是恶意的,你的一次宽容可能换来长期的忠诚。


四、帕累托改进:每次提案前的核心检查

如果你要主动发起一个合作(项目、合伙、资源交换),你应该如何设计提案?

博弈论给出的答案是:追求帕累托改进。 一个提案是帕累托改进,当且仅当——至少有一方变好,且没有任何一方变差。

4.1 为什么帕累托改进是最有说服力的提案

一个提案如果能同时做到以下三点,你不需要说服任何人:

效果对方的反应
对方收益增加「这个好」
对方没有额外成本「白给的?」
你也有收益(但你不需要强调)「难怪你想做」

帕累托改进的提案,本质上是「创造增量然后分享」,而不是「切现有蛋糕」。切蛋糕是零和博弈,天然引发冲突;做新蛋糕是正和博弈,天然吸引合作。

4.2 提案前的帕累托检查清单

每次你要发起合作时,拿出一张纸,画一个表:

参与方现状合作后的状态是否变差?增量来自哪里?
你自己.........
关键人物 A.........
关键人物 B.........
次要参与者 C......否或微差...

三条铁律

  1. 如果「是否变差」那一列有任何一个「是」——停下来重新设计。 你找不到帕累托改进,就说明你在切蛋糕而不是做蛋糕。要么接受这是一个你死我活的博弈(并准备相应的冲突策略),要么扩大视野找到增量。

  2. 关键人物必须明显获益。 「不差」是底线,「明显更好」是说服力。如果关键人物觉得「还行吧」而不是「太好了」,你的提案执行难度会高一个数量级。

  3. 你自己可以持平甚至微亏。 只要你确保长期看,这些微亏能通过后续合作、关系复利、或新机会回来——这是下一节要讲的信号策略。

4.3 找不到帕累托改进怎么办

不是所有博弈都有帕累托改进的空间。如果你找不到,说明你要么面对一个零和博弈,要么你的视野太窄。

扩大视野的三个方向

方向做法例子
时间维度把短期零和变成长期正和「这次让你多拿,下次我多拿」→ 引入重复博弈
资源维度把单资源零和变成多资源正和金钱上的零和,但一方更在意钱另一方更在意名→ 各取所需
参与方维度引入第三方创造增量你和合作方切不开,拉入第三方提供新资源从而做大蛋糕

最强大的帕累托改进往往不是「我们怎么分」,而是「我们一起能从第三方(市场、用户、资源方)那里多拿多少」


五、Shapley 值:公平分配的数学原理

合作做成了,有了蛋糕,怎么分?这是合作博弈中最容易被搞砸的一步。

5.1 什么是 Shapley 值

Lloyd Shapley 在 1953 年提出了一套数学方法,用于在合作博弈中公平分配收益。他的思路很简单:每个人的分成应该等于他对联盟的平均边际贡献。

具体算法:对每个参与者,计算他在所有可能的加入顺序中的边际贡献(他加入联盟后,联盟的总收益增加了多少),然后取平均值。

Shapley 值满足的四个公理

公理含义实践映射
效率所有人分到的加起来等于总产出不截留、不做假账
对称两个贡献相同的人分到一样多不因为你喜欢谁就给谁多分
虚设零贡献的人得到零不养闲人,不敢分给没出力的人
可加分开算和合起来算结果一致复杂合作可以拆成子合作分别计算

5.2 为什么 Shapley 值在实践中至关重要

一个合作联盟的稳定性取决于分配方案是否被感知为「公平」。如果核心成员觉得自己分少了,他会退出联盟或减少投入——这在博弈论中叫「联盟的核心稳定性问题」。

Shapley 值给你的是一个理性上无可辩驳的分配参考。如果你按 Shapley 值分配,任何人想质疑你「不公平」,你就问他:「你觉得你哪次加入的边际贡献被低估了?」

5.3 Shapley 值思维在日常合作中的简化应用

你不需要真的用公式算 Shapley 值。但你可以内化它的思维:

Shapley 思维三步骤

  1. 倒推每个人的边际贡献:如果这个人没加入,项目会差多少?这就是他的「Shapley 边际值」。
  2. 对关键人物慷慨一点点:按 Shapley 值给是公平的底线,但按 Shapley 值 × 1.1 给关键人物,你就从「公平的人」变成了「跟着他有肉吃的人」——后者是更强的联盟吸引子。
  3. 公开计算逻辑:不要直接报一个分法,要分享你是怎么想的。「我认为 A 的贡献在 X、Y、Z 环节不可或缺,B 的贡献在 P、Q 环节起关键作用……」——过程透明比数字精准更重要。

Shapley 值的核心洞见不是贡献的「绝对量」重要,而是「边际增量」重要。 一个写了几万行代码但随便换个人也能写的工程师,和一个只改了 10 行关键架构代码的架构师,后者的 Shapley 值可能远高于前者。因为前者加入联盟的边际贡献小(可替代),后者的边际贡献大(不可替代)。

这对你自己的启示:你在任何合作中的不可替代性,直接决定了你的 Shapley 值。与其在所有领域平均用力,不如在一个关键维度成为「没有你联盟就转不动」的那个人。


六、联盟策略:带谁玩、不带谁玩

博弈论中,合作博弈的核心概念是「联盟」——一个参与者的子集,他们可以达成有约束力的协议。

6.1 联盟的「核」:什么样的联盟是稳定的

在合作博弈中,联盟的「核(Core)」是指这样一组分配方案:没有任何子联盟可以通过脱离大联盟来获得更高的收益。

用人话说:你的联盟是稳定的,当且仅当——没有任何一群人觉得「我们几个单干比跟你们在一起强」。

这意味着什么:

如果你的联盟里...你要...
有几个人可以自己组队产出更多给他们特殊待遇,或者他们迟早会走
有人单干比在联盟里强立刻提高他的待遇,或者放手让他走
每个人都觉得在联盟里比单干/另组强联盟是稳定的,你可以专注于创造增量

6.2 谁应该进入你的合作联盟

不是所有人都值得深度合作。从博弈论的角度,选择合作对象的首要标准是你是否能和对方一起创造正和博弈

合作对象的四象限筛选

和你能创造正和和你只能零和/负和
愿意合作⭐ 核心联盟成员——深度绑定、长期博弈有限合作——做明确边界、短期、规则清晰的事
不愿意合作待观察——改善关系、展示合作价值远离——把精力花在更值得的地方

三个信号判断对方是否适合长期合作

  1. 对方在不需要你的场合是否也偏好合作:一个人对服务员的态度,比他/她对你的态度更能预测他/她的合作倾向。
  2. 对方在短期利益冲突时是否仍然守信:压力测试比任何承诺都有说服力。
  3. 对方是否有「长期思维」:他/她提到的计划是三个月还是三年?三个月的人更适合短期交易,三年的人适合长期联盟。

6.3 关键人物的「帕累托锁定」策略

你提到:大部分和关键人物必须得利。这需要一种我称之为「帕累托锁定」的策略。

帕累托锁定 = 让关键人物在合作中的状态,成为任何一种他/她能想到的替代方案都无法超越的局部最优解。

做到这一点,不需要你付出最多,只需要他/她在你这里的收益 明显优于次优选项。不是「你给的太多了没人比得上」,而是「换一个合作方,他/她在意的那个维度得不到这么好的结果」。

实操方法

  1. 了解每个关键人物的「不可替代的在乎」:有的人在乎钱但更在乎自由度,有的人在乎钱但更在乎认可,有的人在乎钱但更在乎学习成长。找到他们真正在意的那个维度(通常不是钱本身,而是钱代表的东西)。
  2. 在那个维度做到 120%:其他维度 80% 足够(帕累托要求的是不差,不是优秀),但关键维度必须超标。
  3. 定期重新校准:人的偏好在变化。他/她去年在意的,今年可能不在意了。你的「锁定」会随着时间衰减,需要持续维护。

七、博弈论合作法则:十条行动戒律

把以上所有理论,浓缩成十条可每日自检的法则。

法则 1:看成无限次重复博弈

永远假设你还会和这个人合作第二次。 即使内心知道这可能是一锤子买卖,也按长期关系行事。因为你的行为会被第三方看到——每一次合作都是在建立或摧毁你的「合作者声誉」。

法则 2:先出合作牌

在任何新关系、新合作的起点,主动释放合作信号——先分享信息、先提供价值、先表现出信任。友善的初始策略在绝大多数环境中都是占优的。这并不意味着你天真,因为后面有法则 3。

法则 3:背叛必须立刻有代价

友善不等于软弱。当对方背叛时,必须在同一轮(至少下一轮)做出回应。回应不需要是对等伤害,但必须是对方能感知到的后果。不回应等于告诉所有人「你可以免费背叛我」。

法则 4:给对方回来的路

惩罚之后,不要翻旧账。一旦对方回归合作,立刻停止惩罚并回到合作状态。 宽容不是圣母,宽容是「避免一次误会导致永久损失」的理性选择。

法则 5:每次提案都是帕累托改进

在你提出的任何合作方案中,问自己:有人因为我的方案变差了吗? 如果有,重新设计。帕累托改进的提案不需要说服——好的提案自己会说服人。

法則 6:分配按 Shapley 思维,给关键人物略多

合作完成后的分配以边际贡献为基准,让关键人物感受到「比我应得的还多一点点」。这多出来的一点点,是你下一轮合作的入场券和保险费。

法则 7:构建联盟时,先排不可替代性

在决定和谁深度合作之前,先想清楚你在联盟中的不可替代性是什么。 如果没有,先建立再入局。一个没有不可替代性的成员在任何合作博弈中的 Shapley 值都趋近于零。

法则 8:关键人物的偏好决定联盟的稳定

不要凭自己的想象去分配利益。去了解每个关键人物真正在乎什么,在那个维度上做超额投入。 其他维度持平即可。人的偏好是多样化的——同一个蛋糕,有人想吃奶油、有人想吃蛋糕底——利用偏好的异质性来做帕累托优化。

法則 9:永远不要成为零和博弈的被动方

如果发现自己置身于一个零和博弈,要么引入新的维度扩大蛋糕(时间、资源、参与方),要么果断退出。在零和博弈中耗着,最好的结果也只是你不输——但你本可以用这些精力去创造正和。

法則 10:你的「合作者声誉」是你最重要的博弈资产

在重复博弈的世界里,别人对你策略的预测,决定了他们对你做什么。如果你的策略是清晰的合作者(友善+报复+宽容+清晰),大多数人会选择跟你合作而非算计你。如果你的策略不可预测、或表现出背叛倾向,人们会回避你或先发制人地背叛你。


总结

博弈论教给我们最反直觉的一件事是:「算计别人」在绝大多数情况下不是最优策略。

Tit-for-Tat 战胜了所有复杂的心机策略,因为它做到了四件事:不主动伤害任何人、不让任何人免费伤害自己、给每个人改正的机会、让每个人都知道自己怎么做。

这不只是一套合作策略,这是一套为人处世的底层哲学。

博弈论概念你的行动原则
囚徒困境理解为什么合作不是默认选项——因为结构使人背叛。你的任务是改造结构。
重复博弈把每一次合作都当作长期关系的开始。未来够重要,合作就是理性选择。
Tit-for-Tat友善开场、报复背叛、宽容回头、清晰可测——这是被数学证明最优的行为模式。
帕累托改进每次提案前检查:有没有人变差?没有才提案。
Shapley 值分配按边际贡献。给关键人物比他们应得的略多一点点。
联盟的核没有任何子群体觉得单干更强——你的联盟就是稳定的。如果有人这样觉得,要么提高待遇,要么放手。

最终公式

好的合作=无限次重复博弈+友善开场+帕累托改进+Shapley 分配+清晰策略\text{好的合作} = \text{无限次重复博弈} + \text{友善开场} + \text{帕累托改进} + \text{Shapley 分配} + \text{清晰策略}

从今天起,用博弈论的框架审视你的每一次互动。你会发现——大多数人际关系的困境,本质上都是「单次博弈的激励结构」导致的。而你要做的,不是改变人性,而是设计一个让合作成为理性选择的博弈结构。


附录:2025-2026 年博弈论前沿进展——有哪些更好的思路?

前面讲的 Tit-for-Tat、Shapley 值、帕累托改进,大多是二十世纪的成果。博弈论没有停在 1984 年。以下是过去两年在合作策略上的关键进展,以及它们对你行动法则的修正。

Z.1 零行列式策略:你不再需要「对方也愿意合作」

2012 年,Press 和 Dyson 在 PNAS 上发表了一篇震惊博弈论界的论文——他们发现了零行列式(Zero-Determinant, ZD)策略。这类策略让一个玩家可以单方面决定自己和对手的回报之间满足某个线性关系,无论对手怎么做。

到了 2025 年,McAvoy 等人(PNAS, 2025)把 ZD 策略推广到了任意随机博弈(stochastic games)——不只是简单的囚徒困境,而是任何多状态、动态变化的博弈环境。核心结论:

你可以单方面设定一个「公平约束」——比如「我拿的永远不超过你拿的 1.2 倍」或者「我们的收益永远相等」——然后通过你的策略让对手的最优选择变成合作。你不需要求对方合作,你只需要重新设计对方的激励结构。

对你的法则修正

你的任务从「寻找愿意合作的人」升级为**「设计一个让不合作变得亏本的博弈结构」。一个新的能力维度是:你是否能单方面**让对手意识到「在这个博弈中,合作是唯一理性的选择」——即使对方本来想背叛。

现实做法:

  • 等价约束:在合作中设定「我得到的和你得到的成正比」的规则,让对方没有动机占你便宜(因为你的损失会自动导致他的损失)
  • 同步透明:让对方清楚看到你的行为模式——如果你占我便宜,你会立刻吃亏;如果你公平,你会立刻得利。ZD 策略的核心优势是它不需要隐藏意图

Z.2 所有社会困境都能被零行列式策略覆盖(2025)

同一年,PNAS Nexus 的另一篇论文进一步证明:在所有类型的社会困境中(不只是囚徒困境),社会最优结果都可以被 ZD 策略维持为均衡——无论用的是直接互惠、间接互惠,还是两者混合。 而且不需要无限次重复、不需要所有人的意见一致。

对你的法则修正

你在博弈论第一篇中学到的「Tit-for-Tat 很强,因为它是重复博弈 + 友善 + 报复 + 宽容」,现在可以升级成:

在所有社会困境中,你都存在一个策略,能单方面把博弈推向对你和关键人物都有利的方向。你不需要对方也懂博弈论——你只需要你自己懂。

这意味着 法则 1(看成无限次重复博弈)仍然成立,但你不需要对方也有这个认知。ZD 策略让你在对方以为是「一次博弈」的时候,也能通过你的策略设计把结果引导到合作。

Z.3 非对称博弈:当你们不平等时怎么办(2024-2026)

2024 年 Kang 等人的研究把 ZD 策略推广到了非对称 2×2 博弈——也就是你和对方拥有不同的资源、不同的选项、不同的回报函数的真实场景。2026 年 PNAS 上 Wang 等人的研究进一步验证了:不平等对合作的影响,取决于回报函数是线性还是阈值型

关键发现:

  • 线性的公共利益(每个人的贡献线性增加总产出):对齐的不平等是有利的——让更有生产力的人拥有更多资源,整体合作效率最高
  • 阈值型的公共利益(必须达到某个临界点才有产出):不平等反而降低合作——因为弱势方觉得「反正我贡献不够触发阈值,不如搭便车」

对你的法则修正

法则 4(帕累托改进)的升级:在分配资源和角色时,优先把资源给边际产出更高的人(对齐的不平等)。但如果项目的成功依赖于「每个人都要达到某个门槛」,那就要刻意减少分配差距,避免弱势方弃权。

这和你原来的「Shapley 价值观」是对齐的:边际贡献决定分配。新进展只是让你知道:当你们之间不平等时,还需要考虑**「线性还是阈值」的产出结构**,两者的最优分配策略是反过来的。

Z.4 最短记忆策略就够了(2025)

Dimou 和 McAvoy(arXiv, 2025)证明了一个极其实用的结论:任何可以被实现的收益约束关系,实际上都可以用一个只依赖「对手上一轮的动作 + 你自己上一轮的选择」的简单两状态反应策略来实现

翻译成人话:你需要记住的,最多只有上一轮发生了什么。

这直接验证了你法则 3(背叛立刻有代价)和法则 4(对方回头立刻停止惩罚)的正确性——不仅正确,而且是数学上最优的。你不需要追踪 10 轮历史来分析对方的行为模式,你只需要记住上一轮。

对你的法则修正

法则 3 强化为:惩罚必须在下一轮执行,且必须是对方能直接归因的。延迟惩罚(「这一轮我不计较,但以后我会报复」)是无效的——因为 ZD 策略最优形态是只依赖上一轮,没有「以后」的额外信息。

Z.5 AI 作为合作媒介:无条件的慷慨可能是最优解

2024 年 Royal Society 上 Zimmaro 等人的研究做了一个有趣的实验:在一次性囚徒困境(最不利于合作的环境!)中引入 AI 代理,分为两类:

  • 歧视性 AI(Discriminatory AI):只帮「值得帮」的人(合作者)
  • 撒玛利亚 AI(Samaritan AI):无条件帮助所有人,包括背叛者

结果:撒玛利亚 AI 比歧视性 AI 更能促进人类的合作,尤其是在社会变化速度较慢的环境中。原因?无条件帮助让背叛者也体验到「合作的世界是什么样的」,从而改变了他们的预期。

对你的法则修正

法则 2(先出合作牌)和法则 4(给对方回来的路)找到了一种新的数学基础。在某些条件下,比 Tit-for-Tat 更宽容——甚至无条件宽容——可能是更优策略。因为你的一次无条件善意,可能改变一个原本决心背叛的人对「这个世界是什么游戏」的根本认知。

但关键前提是「社会变化速度较慢」——如果你的环境是快节奏、高流动的(比如短期雇佣关系、一次性交易市场),Tit-for-Tat 仍然是更稳健的选择。慢环境:可以更慷慨。快环境:保持 Tit-for-Tat。

Z.6 Shapley 值的新进展(2026)

2026 年 AAAI 上,上海科技大学赵登吉课题组提出了 「Shapley Distance」——一个在在线合作博弈中衡量早期加盟者公平性的新指标。传统 Shapley 值假设所有联盟形成序列等概率,但现实中加盟顺序影响巨大。Shapley Distance 让你能量化「第一个人比最后一个人多得了多少」,并设计了优化该指标的机制。

对你的法则修正

法则 6(分配按 Shapley 思维)的升级:不仅要算「如果没有这个人会损失多少」,还要考虑**「这个人什么时候加入的」**。早期加入者承担了更多不确定性和风险,应该在分配中获得超额回报——不仅仅是其边际贡献的等价值,还要乘以一个「早期风险溢价」。


最终法则(2026 修订版)

综合经典博弈论和 2025-2026 的前沿进展:

#法则升级点
1看成无限次重复博弈ZD 策略让你不需要对方也这么想
2先出合作牌撒玛利亚效应——在慢环境中无条件慷慨可能是最优
3背叛必须立刻有代价只依赖上一轮信息——延迟惩罚是无效的
4给对方回来的路上一轮的背叛不影响下一轮的善意——和数学最优解一致
5每次提案都是帕累托改进考虑「线性还是阈值」的产出结构来决定资源分配是否对齐
6分配按 Shapley + 早期溢价加入「加盟时机」维度,早期加入者应获风险溢价
7构建不可替代性不变
8关键人物偏好决定联盟稳定不变
9不在零和博弈中耗着ZD 策略可能帮你把零和博弈改造为有正和潜力的结构
10合作者声誉是首要资产ZD 策略的清晰性让它成为最强的声誉信号

最终公式(2026 版)

好的合作=ZD激励设计+友善宽容开局+帕累托改进+Shapley+时机分配+清晰可测策略\text{好的合作} = \text{ZD激励设计} + \text{友善宽容开局} + \text{帕累托改进} + \text{Shapley+时机分配} + \text{清晰可测策略}

你不再只是一个「博弈参与者」——你是一个博弈设计师。你的核心能力不是「在给定的博弈里做好选择」,而是设计出一个让所有人都自然走向合作的结构

场景速查:遇到什么情况,用什么策略

不需要每次都从头推演。下面是常见合作场景的直接映射:

你面对的情况核心问题最好的方式
合作方不可信、随时可能背叛单次博弈激励结构鼓励背叛设计 ZD 约束:把收益绑在一起,让对方不合作就自动吃亏。最简做法——合同里列出对等的惩罚条款,你的损失按比例反映为他的成本
双方第一次合作,不知道对方底细信息不对称,不知道该信任到什么程度友善 Tit-for-Tat 开局:先主动给一次小信任(分享信息/先付出成本),看对方反应。回合作就继续,背叛就立刻停——不翻旧账,但也不给第二次免费背叛的机会
长期稳定的合作关系,但偶尔有小摩擦噪声/误解导致互相报复的死循环Generous Tit-for-Tat:对方偶尔掉链子(不是恶意),以 10% 概率装作没看到。一次关心和包容远胜过「上次你欠我的还记得吗」——你的目的是维持合作,不是赢每一轮
要发起一个新提案,拉多方入局有人可能因你的提案变差,从而拒绝帕累托改进检查:列一个表,确认每个人「合作后状态 ≥ 现状」。如果有人变差,先别提案——想想能不能从第三方(市场、资源方、时间维度)引入新蛋糕
合作成功了,要分利益分法被感知为不公平,下次合作崩溃Shapley 思维 + 关键人物超额:先数每个人「如果不加进来联盟会少多少」,按比例分。然后把关键人物的份额乘以 1.1。——多的 0.1 是你下次合作的保险金
早期入伙的人要求比后来者多传统 Shapley 假设加入顺序随机,不区分先后Shapley Distance + 早期风险溢价:加盟越早、承担不确定性越多的人,分配基数乘以一个越大的系数。后来者如果不接受,可以让他们知道「你也可以等到业务稳定了再加入,但到时候你得接受较低的份额」
关系中你处于弱势方,资源/权力不对等非对称博弈,对方可能用不平等压迫你判断产出结构:产出是线性的(每个人多干就多产)→ 接受「对齐的不平等」(资源多的人多干);产出是阈值型的(必须大家一起顶才有结果)→ 坚持均分资源,否则弱势方摆烂大家一起完蛋
短期项目、高流动率的合作(外包、一次性交易)快环境,没有未来惩罚的威慑标准 Tit-for-Tat:友善开场,但背叛就立刻停,不宽容(因为没有未来轮次来验证对方是否真改)。快环境中慷慨策略会被收割
慢节奏合作(老朋友、长周期项目)慢环境,有充分的机会修复关系Samaritan 式宽容:偶尔甚至对背叛也保持善意。因为你的一次无条件帮助可能让对方重新认识这段关系的性质——从「单次博弈」转换成「长期合作」
合作中你自己暂时没有明显优势不知道你在这个联盟中的 Shapley 值是多少先建立不可替代性再入局:不要在什么都不突出时深度绑定。找一个小维度(某个技术点、某个关系渠道、某个决策视角)做到「没有你联盟就转不动」——哪怕总量不大,但边际值为正且不可替代
身处一个零和博弈,每个人都在抢资源固定、此消彼长要么造增量退出零和(拉入新资源方/拓展新维度/延长到下一轮),要么退出。别忘了 ZD 策略有时能把零和改造成正和——你单方面设规则让所有人的收益正相关
想扩大自己的合作网络,但没人知道你是靠谱的合作者缺乏「合作者声誉」信号公开你的策略:清晰、可预测、按你说的方法出牌。让别人观察到「跟这个人合作比跟别人合作划算」。你不需要营销自己——你只需要让自己的行为模式足够清晰,清晰到别人帮你做口碑传播