Social Dilemmas：三个经典社会困境

0. 四个收益位置：T / R / P / S

在这些博弈里，每个 agent 通常只有两个高层选择：合作或背叛。但这里的“收益”不一定是钱，也可以是资源、分数、安全感、声誉、未来机会，或者任何 agent 想最大化的东西。

先不要记 T/R/P/S 的字母，先记四种场景：

双方都合作：大家一起守规则，一起获得不错的结果。这是 R：共同合作的收益。
双方都背叛：大家互相防备、互相攻击、互相抢，最后结果很差。这是 P：共同背叛的惩罚。
我合作，但对方背叛：我守规则，对方占我便宜，我成了“老实人”。这是 S：老实人吃亏的收益，通常很低。
我背叛，但对方合作：对方守规则，我钻空子，占到了便宜。这是 T：背叛诱惑的收益，通常很高。

所以 T/R/P/S 其实不是抽象字母，而是在问四个问题：

“如果我们都守规则，我过得怎么样？”这是 R：reward。

“如果我们都不守规则，我过得怎么样？”这是 P：punish。

“如果我守规则但你不守规则，我过得怎么样？”这是 S：sucker。

“如果我不守规则但你守规则，我过得怎么样？”这是 T：temptation。

1. Prisoner’s Dilemma：囚徒困境

囚徒困境的核心是：每个人单独看，背叛都更划算；但所有人都背叛以后，整体结果反而更差。

经典故事是两个嫌疑人被分开审讯。警察对每个人说：“你可以选择沉默，也可以选择出卖对方。”如果两个人都沉默，两人都只受到轻罚；如果两个人都出卖对方，两人都受到中等惩罚；如果一个人沉默，另一个人出卖，那么出卖者几乎没事，沉默者被重罚。

这里的四种结果可以这样理解：

我们都沉默：虽然没有完美脱身，但两个人都还不错。这是 R。
我们都出卖对方：两个人都被判得比较重。这是 P。
我沉默，你出卖我：我最惨。这是 S。
我出卖你，你沉默：我最好。这是 T。

所以囚徒困境的排序是：

T > R > P > S

意思是：

我最想要的是“我背叛、你合作”，因为我占便宜；

其次是“我们都合作”，大家都还不错；

再差一点是“我们都背叛”；

最惨的是“我合作、你背叛”。

为什么最后会走向双方背叛？

因为我会这样想：

如果你合作，那我背叛比合作更好，因为 T > R。

如果你背叛，那我也背叛比继续合作更好，因为 P > S。

所以不管你怎么选，我都觉得背叛更安全、更划算。

你也会这样想。于是两个人最后都会背叛，结果落在 双方背叛。这就是囚徒困境的均衡。

它最有意思的地方在于：

每个人都做了对自己“局部最优”的选择，但大家一起得到了一个更差的集体结果。

这就是很多社会问题的底层结构：大家都知道合作更好，但每个人都有动机偷偷占便宜；一旦大家都开始占便宜，整个系统就变差。

2. Chicken Game：斗鸡博弈

斗鸡博弈的核心是：每个人都想表现得强硬，但如果双方都强硬，结果最惨。

经典故事是两辆车迎面高速开来。每个司机都有两个选择：继续直冲，或者转弯让开。如果我不转弯、你转弯，我赢了，你怂了；如果你不转弯、我转弯，你赢了，我怂了；如果我们都转弯，虽然没人赢面子，但大家都安全；如果我们都不转弯，那就撞车，最惨。

这里的四种结果是：

我们都转弯：大家都安全，但谁也没赢面子。这是 R。
我们都不转弯：直接撞车，最惨。这是 P。
我转弯，你不转弯：我输了面子，但至少活着。这是 S。
我不转弯，你转弯：我赢了面子，这是最爽的结果。这是 T。

所以 Chicken Game 的排序是：

T > R > S > P

它和囚徒困境最大的不同是：

在囚徒困境里，如果对方背叛，我也应该背叛。

但在斗鸡博弈里，如果对方已经强硬，我最好让步。

因为撞车太惨了。

也就是说：

如果你转弯，我不转弯最好，因为我赢。

如果你不转弯，我转弯最好，因为至少避免撞车。

所以斗鸡博弈不会自然走向“双方都背叛”，因为双方都背叛是最差结果。它的均衡通常是不对称的：

我强硬，你让步
你强硬，我让步

这类博弈最有意思的地方在于：

大家都想当那个强硬的人，但系统必须有一个人让步，否则所有人一起完蛋。

这解释了很多现实里的冲突，比如商业价格战、政治威慑、谈判施压、军备对峙。每一方都想让对方先退，但如果双方都不退，结果可能比“认输”更糟。

3. Stag Hunt：猎鹿博弈

猎鹿博弈的核心是：合作能带来最高收益，但它依赖信任；如果我不相信你会合作，我就会选择更安全但更低收益的方案。

经典故事是两个猎人可以一起猎鹿，也可以各自猎兔。猎鹿收益很高，但必须两个人都配合；如果我去猎鹿，你却跑去猎兔，那我一个人抓不到鹿，收益很差。猎兔收益低一些，但不依赖别人，我自己就能抓到。

这里的四种结果是：

我们都猎鹿：收益最高，大家一起成功。这是 R。
我们都猎兔：收益不高，但稳定安全。这是 P。
我猎鹿，你猎兔：我白等你，什么都抓不到，最惨。这是 S。
我猎兔，你猎鹿：我至少抓到兔子，比空手好，但没有共同猎鹿那么好。这是 T。

所以 Stag Hunt 的排序是：

R > T > P > S

注意这里和囚徒困境、斗鸡博弈都不一样。

在猎鹿博弈里，最好的结果不是我占你便宜，而是我们都合作。也就是说 R 最大。

但问题是：合作有风险。

如果我相信你会猎鹿，那我也应该猎鹿，因为一起猎鹿收益最高。

如果我担心你会去猎兔，那我也去猎兔更安全，因为猎兔至少有稳定收益。

所以猎鹿博弈有两个均衡：

我们都合作，大家一起猎鹿：高收益、高信任均衡。
我们都保守，大家各自猎兔：低收益、低风险均衡。

它最有意思的地方在于：

大家都知道合作最好，但如果缺乏信任，理性的人会选择安全的低收益方案。

这在现实里非常常见。比如一个团队都知道深度协作能做出更好的产品，但每个人都担心别人不投入，所以自己也只做最低限度的工作；最后大家都没有犯错，但整体结果很平庸。

4. 三个困境怎么快速区分？

囚徒困境 Prisoner’s Dilemma：

我既想占便宜，也怕被你占便宜。所以无论你怎么选，我都倾向于背叛。最后大家都背叛，结果变差。

斗鸡博弈 Chicken Game：

我想强硬，但我怕你也强硬。最好的结果是我强硬你让步，最坏的结果是我们都强硬。所以最后往往是一方强硬，一方让步。

猎鹿博弈 Stag Hunt：

我知道合作最好，但我怕你不合作。如果我信你，我就合作；如果我不信你，我就选择安全方案。所以它的关键不是贪婪，而是信任。

一句话记忆：

囚徒困境是“占便宜的诱惑”。

斗鸡博弈是“谁先让步的博弈”。

猎鹿博弈是“能不能互相信任的博弈”。

一个 agent 的行为不是只由它自己的能力决定，而是由它所处的激励结构、信息结构、记忆结构、惩罚结构和其他 agent 的反应共同决定。

0. 四个收益位置：T / R / P / S

1. Prisoner’s Dilemma：囚徒困境

2. Chicken Game：斗鸡博弈

3. Stag Hunt：猎鹿博弈

4. 三个困境怎么快速区分？

Enjoy Reading This Article?