Skip to main content

Social Dilemmas:三个经典社会困境

0. 四个收益位置:T / R / P / S

在这些博弈里,每个 agent 通常只有两个高层选择:合作背叛。但这里的“收益”不一定是钱,也可以是资源、分数、安全感、声誉、未来机会,或者任何 agent 想最大化的东西。

先不要记 T/R/P/S 的字母,先记四种场景:

  • 双方都合作:大家一起守规则,一起获得不错的结果。这是 R:共同合作的收益

  • 双方都背叛:大家互相防备、互相攻击、互相抢,最后结果很差。这是 P:共同背叛的惩罚

  • 我合作,但对方背叛:我守规则,对方占我便宜,我成了“老实人”。这是 S:老实人吃亏的收益,通常很低。

  • 我背叛,但对方合作:对方守规则,我钻空子,占到了便宜。这是 T:背叛诱惑的收益,通常很高。

所以 T/R/P/S 其实不是抽象字母,而是在问四个问题:

“如果我们都守规则,我过得怎么样?”这是 R:reward。

“如果我们都不守规则,我过得怎么样?”这是 P:punish。

“如果我守规则但你不守规则,我过得怎么样?”这是 S:sucker。

“如果我不守规则但你守规则,我过得怎么样?”这是 T:temptation。


1. Prisoner’s Dilemma:囚徒困境

囚徒困境的核心是:每个人单独看,背叛都更划算;但所有人都背叛以后,整体结果反而更差。

经典故事是两个嫌疑人被分开审讯。警察对每个人说:“你可以选择沉默,也可以选择出卖对方。”如果两个人都沉默,两人都只受到轻罚;如果两个人都出卖对方,两人都受到中等惩罚;如果一个人沉默,另一个人出卖,那么出卖者几乎没事,沉默者被重罚。

这里的四种结果可以这样理解:

  • 我们都沉默:虽然没有完美脱身,但两个人都还不错。这是 R。
  • 我们都出卖对方:两个人都被判得比较重。这是 P。
  • 我沉默,你出卖我:我最惨。这是 S。
  • 我出卖你,你沉默:我最好。这是 T。

所以囚徒困境的排序是:

T > R > P > S

意思是:

我最想要的是“我背叛、你合作”,因为我占便宜;

其次是“我们都合作”,大家都还不错;

再差一点是“我们都背叛”;

最惨的是“我合作、你背叛”。

为什么最后会走向双方背叛?

因为我会这样想:

如果你合作,那我背叛比合作更好,因为 T > R。

如果你背叛,那我也背叛比继续合作更好,因为 P > S。

所以不管你怎么选,我都觉得背叛更安全、更划算。

你也会这样想。于是两个人最后都会背叛,结果落在 双方背叛。这就是囚徒困境的均衡。

它最有意思的地方在于:

每个人都做了对自己“局部最优”的选择,但大家一起得到了一个更差的集体结果。

这就是很多社会问题的底层结构:大家都知道合作更好,但每个人都有动机偷偷占便宜;一旦大家都开始占便宜,整个系统就变差。


2. Chicken Game:斗鸡博弈

斗鸡博弈的核心是:每个人都想表现得强硬,但如果双方都强硬,结果最惨。

经典故事是两辆车迎面高速开来。每个司机都有两个选择:继续直冲,或者转弯让开。如果我不转弯、你转弯,我赢了,你怂了;如果你不转弯、我转弯,你赢了,我怂了;如果我们都转弯,虽然没人赢面子,但大家都安全;如果我们都不转弯,那就撞车,最惨。

这里的四种结果是:

  • 我们都转弯:大家都安全,但谁也没赢面子。这是 R。

  • 我们都不转弯:直接撞车,最惨。这是 P。

  • 我转弯,你不转弯:我输了面子,但至少活着。这是 S。

  • 我不转弯,你转弯:我赢了面子,这是最爽的结果。这是 T。

所以 Chicken Game 的排序是:

T > R > S > P

它和囚徒困境最大的不同是:

在囚徒困境里,如果对方背叛,我也应该背叛。

但在斗鸡博弈里,如果对方已经强硬,我最好让步。

因为撞车太惨了。

也就是说:

如果你转弯,我不转弯最好,因为我赢。

如果你不转弯,我转弯最好,因为至少避免撞车。

所以斗鸡博弈不会自然走向“双方都背叛”,因为双方都背叛是最差结果。它的均衡通常是不对称的:

  • 我强硬,你让步

  • 你强硬,我让步

这类博弈最有意思的地方在于:

大家都想当那个强硬的人,但系统必须有一个人让步,否则所有人一起完蛋。

这解释了很多现实里的冲突,比如商业价格战、政治威慑、谈判施压、军备对峙。每一方都想让对方先退,但如果双方都不退,结果可能比“认输”更糟。


3. Stag Hunt:猎鹿博弈

猎鹿博弈的核心是:合作能带来最高收益,但它依赖信任;如果我不相信你会合作,我就会选择更安全但更低收益的方案。

经典故事是两个猎人可以一起猎鹿,也可以各自猎兔。猎鹿收益很高,但必须两个人都配合;如果我去猎鹿,你却跑去猎兔,那我一个人抓不到鹿,收益很差。猎兔收益低一些,但不依赖别人,我自己就能抓到。

这里的四种结果是:

  • 我们都猎鹿:收益最高,大家一起成功。这是 R。

  • 我们都猎兔:收益不高,但稳定安全。这是 P。

  • 我猎鹿,你猎兔:我白等你,什么都抓不到,最惨。这是 S。

  • 我猎兔,你猎鹿:我至少抓到兔子,比空手好,但没有共同猎鹿那么好。这是 T。

所以 Stag Hunt 的排序是:

R > T > P > S

注意这里和囚徒困境、斗鸡博弈都不一样。

在猎鹿博弈里,最好的结果不是我占你便宜,而是我们都合作。也就是说 R 最大

但问题是:合作有风险。

如果我相信你会猎鹿,那我也应该猎鹿,因为一起猎鹿收益最高。

如果我担心你会去猎兔,那我也去猎兔更安全,因为猎兔至少有稳定收益。

所以猎鹿博弈有两个均衡:

  • 我们都合作,大家一起猎鹿:高收益、高信任均衡。

  • 我们都保守,大家各自猎兔:低收益、低风险均衡。

它最有意思的地方在于:

大家都知道合作最好,但如果缺乏信任,理性的人会选择安全的低收益方案。

这在现实里非常常见。比如一个团队都知道深度协作能做出更好的产品,但每个人都担心别人不投入,所以自己也只做最低限度的工作;最后大家都没有犯错,但整体结果很平庸。


4. 三个困境怎么快速区分?

囚徒困境 Prisoner’s Dilemma

我既想占便宜,也怕被你占便宜。所以无论你怎么选,我都倾向于背叛。最后大家都背叛,结果变差。

斗鸡博弈 Chicken Game

我想强硬,但我怕你也强硬。最好的结果是我强硬你让步,最坏的结果是我们都强硬。所以最后往往是一方强硬,一方让步。

猎鹿博弈 Stag Hunt

我知道合作最好,但我怕你不合作。如果我信你,我就合作;如果我不信你,我就选择安全方案。所以它的关键不是贪婪,而是信任。

一句话记忆:

囚徒困境是“占便宜的诱惑”。

斗鸡博弈是“谁先让步的博弈”。

猎鹿博弈是“能不能互相信任的博弈”。

一个 agent 的行为不是只由它自己的能力决定,而是由它所处的激励结构、信息结构、记忆结构、惩罚结构和其他 agent 的反应共同决定。