自私的基因：第 12 章好人终有好报

核心问题：如果自然选择偏向自私，为什么“好人”不一定总是吃亏？为什么合作、宽容、互惠有时反而能成功？

作者的回答：在一次性互动中，背叛常常占优势；但在反复相遇的关系中，善良、报复、宽容、不嫉妒的策略可以胜出。只要未来还有再次相遇的机会，合作就可能成为自私基因的有效策略。

0. 本章一句话

第12章想说明的是：

“好人”并不必然失败。在重复囚徒困境中，最成功的策略往往不是无条件善良，也不是无情欺骗，而是先合作、会报复、能宽恕、不嫉妒的策略。合作能够进化，但前提是互动会重复、个体能识别彼此、背叛会被惩罚。

1. 本章接续第10章：从相互利他到博弈论

第10章已经讲过“相互利他”。

它的逻辑是：

今天我帮你，是因为未来你可能帮我。

第10章中的“斤斤计较者”就是这种思路：

一开始愿意合作；
如果对方回报，就继续合作；
如果对方欺骗，以后就拒绝帮助。

这种策略不是无条件善良，而是：

有记忆、有惩罚、有选择性的合作。

第12章就是把这个问题进一步形式化。

作者借助罗伯特·阿克塞尔罗德的研究，说明：

在重复互动中，合作怎样从自私个体之间产生出来。

2. 什么是囚徒困境？

囚徒困境是一个简单博弈。

两个玩家各有两个选择：

合作；
背叛。

结果取决于两个人的共同选择。

大致有四种情况：

我	对方	我的结果
合作	合作	得到相互合作的奖赏
背叛	合作	得到背叛的诱惑
合作	背叛	付出失败者的代价
背叛	背叛	得到相互背叛的惩罚

囚徒困境的关键排序是：

背叛的诱惑＞相互合作的奖赏＞相互背叛的惩罚＞失败者的代价

为什么叫“困境”？

因为从单个回合看：

如果对方合作，我背叛最赚；
如果对方背叛，我也只能背叛来减少损失。

所以理性推理会得出：

无论对方怎样，我都应该背叛。

但问题是：

如果双方都这样想，结果就是双方都背叛，反而比双方合作更差。

3. 一次性博弈中，背叛很有优势

在一次性囚徒困境中，你只和对方互动一次。

没有未来。

没有报复。

没有名声。

没有下次合作。

这时背叛很容易成为优势策略。

因为你不必担心对方以后惩罚你。

重点

如果世界只由一次性互动组成，那么“好人”确实容易吃亏。

这也是很多人误解“自私基因”的来源：

既然个体自私，那是不是只能互相欺骗？

第12章要说明的是：

这只适用于一次性互动，不适用于长期重复互动。

4. 重复囚徒困境：希望出现了

现实中的生物和人类关系，很多不是一次性互动。

而是会反复相遇。

比如：

同一群鸟反复互相清理寄生虫；
清洁工鱼和大鱼反复见面；
邻居长期生活在同一区域；
士兵长期面对同一条战线；
共生物种长期互相依赖。

一旦互动会重复，情况就改变了。

因为今天的背叛会影响明天的待遇。

今天的合作也可能换来未来的合作。

重点

重复互动让“未来”进入了当下的决策。

这就是合作能够稳定的关键。

5. 第10章的鸟类互相清洁，就是重复囚徒困境

第10章里讲过互相梳理或清除寄生虫。

一只鸟自己够不到头部，需要同伴帮忙。

但帮助同伴要花时间和精力。

这正好像囚徒困境：

双方互相帮助：都受益；
我不帮你但你帮我：我最赚；
我帮你但你不帮我：我最亏；
双方都不帮：都不好，但还不是最惨。

所以问题是：

怎样防止骗子只接受帮助却不回报？

第12章的回答是：

靠重复互动中的策略。

6. 阿克塞尔罗德的计算机竞赛

阿克塞尔罗德设计了一个比赛。

他邀请专家提交不同策略，让这些策略在计算机里互相进行重复囚徒困境。

每个策略不是一个人，而是一套固定规则。

例如：

永远合作；
永远背叛；
随机合作或背叛；
先合作，之后模仿对方上一轮；
偶尔试探性背叛；
被背叛后永远不原谅。

然后让它们反复对战，比较总得分。

重点

这相当于模拟：

不同合作策略在自然选择中互相竞争。

得分高的策略，就像能留下更多后代的基因策略。

7. 最成功的策略：针锋相对

第一轮竞赛中，获胜策略非常简单。

它叫：

针锋相对。

它的规则只有两条：

第一轮先合作；
之后每一轮复制对方上一轮的行为。

也就是说：

对方合作，我下一轮合作；
对方背叛，我下一轮背叛；
对方重新合作，我也重新合作。

重点

针锋相对并不复杂。

它不是天真善良。

它也不是无情报复。

它是：

先释放善意，但不会让骗子一直占便宜。

8. 针锋相对为什么厉害？

针锋相对有几个优点。

第一，它善良

它从不首先背叛。

所以它容易和其他善良策略建立长期合作。

第二，它会报复

如果对方背叛，它下一轮就背叛。

所以骗子不能长期免费利用它。

第三，它宽容

它只记住上一轮。

如果对方停止背叛、重新合作，它也立刻恢复合作。

所以它不会陷入永久仇恨。

第四，它不嫉妒

它不追求“比对方多赢”。

它追求的是双方一起从“银行家”那里拿到更高总收益。

本章重点

成功的合作策略不是“永远善良”，而是“善良 + 报复 + 宽容 + 不嫉妒”。

9. “善良”策略为什么表现好？

阿克塞尔罗德发现，竞赛中排名靠前的策略大多是善良策略。

这里的“善良”有一个技术含义：

不首先背叛。

善良策略不是不会背叛。

针锋相对就会背叛。

但它只在被背叛后才背叛。

这说明：

在长期关系中，主动欺骗常常会破坏未来收益。

看起来聪明的恶意策略，短期可能占便宜。

但长期会让别人不再合作。

最后自己也失去合作收益。

10. 宽容同样重要

第10章中的“斤斤计较者”永远记仇。

一旦被欺骗，就永远不再帮助对方。

这能防止被骗子剥削。

但问题是：

如果对方只是偶然犯错，永远记仇会导致长期合作彻底破裂。

针锋相对更宽容。

它惩罚一次后，就给对方重新合作的机会。

重点

报复能防骗，宽容能修复关系。

只有报复没有宽容，容易陷入冤冤相报。

只有宽容没有报复，又容易被骗子利用。

11. 太宽容也有风险

作者也指出，宽容不是越多越好。

比如“两报还一报”策略：

对方连续背叛两次，才开始报复。

这种策略能减少误会导致的报复循环。

但它也可能被更狡猾的恶意策略利用。

所以最稳定的合作策略，通常要在两者之间平衡：

足够善良，能建立合作；
足够强硬，能防止剥削；
足够宽容，能恢复合作；
不能宽容到让骗子长期占便宜。

重点

合作不是软弱，而是一种有条件、有边界的策略。

12. 针锋相对不是严格的进化稳定策略

作者随后引入一个复杂问题。

针锋相对很强，但它不是严格意义上的进化稳定策略。

原因是：

在一个全是善良策略的环境中，很多策略看起来都一样。

比如：

针锋相对；
永远合作；
其他从不首先背叛的策略。

只要大家都一直合作，它们的表现就无法区分。

这样一来，一些过分善良的策略可能混进来。

而这些过分善良的策略又可能为恶意策略打开入口。

重点

一个合作系统如果太安全，可能会让防骗机制退化；防骗机制退化后，骗子又可能回来。

13. 集体稳定策略：合作需要达到临界数量

阿克塞尔罗德提出“集体稳定策略”的想法。

一个种群里可能有两个稳定状态：

永远背叛；
以针锋相对为代表的合作策略。

如果“永远背叛”已经占主导，少数合作者很难成功。

因为他们很难遇到彼此。

但如果合作者聚集到一定数量，彼此之间能反复合作，就能跨过一个临界点。

之后合作策略可能扩张。

重点

合作有时需要先形成小团体。

第10章里讲过，斤斤计较者达到一定数量后，可以互相合作并排斥骗子。第12章把这个思路进一步放进重复囚徒困境和进化稳定策略里。

14. 亲属聚集可以帮助合作起步

作者提出一个重要机制：

亲属常常生活在一起。

这会让相似基因携带者更容易相遇。

如果某些个体携带倾向于针锋相对的策略，它们可能在局部地区聚集。

这样即使它们在整体种群中很少，也能在小范围内互相合作。

一旦这个合作小团体扩大，就可能向外扩散。

重点

亲属选择和互惠利他并不是完全分开的。

亲属聚集可以帮助互惠策略度过早期困难阶段。

15. 不嫉妒：不要把非ni shish零和博弈误当成零和博弈

阿克塞尔罗德说，针锋相对还有一个特点：

不嫉妒。

它不追求“我一定要比你赢得更多”。

它追求的是：

我们都从整个系统里获得更高收益。

这引出零和博弈和非零和博弈的区别。

零和博弈

一方赢，就是另一方输。

例如很多竞技比赛。

非零和博弈

双方可以一起变好，也可以一起变差。

囚徒困境就是非零和博弈。

双方合作时，两个人都能比双方背叛更好。

重点

很多现实关系不是“你输我赢”，而是“我们能不能一起避免共同损失”。

把非零和博弈误当成零和博弈，会让双方都变差。

16. 离婚和律师：人为制造零和对抗

作者用离婚诉讼举例。

一段婚姻破裂时，双方本来仍有合作空间。

尤其如果有孩子、财产、长期关系，双方都可能通过理性协商减少损失。

但法律和律师制度可能把它变成：

我方 vs 你方

这样夫妻被迫进入零和对抗。

结果可能是：

夫妻双方都损失时间和金钱；
律师却从长期争执中获益；
原本可以合作解决的问题，被制度变成对抗游戏。

重点

有些冲突并非天然是零和博弈，而是被制度、语言和角色安排塑造成零和博弈。

17. 足球例子：零和博弈也可能临时变成非零和博弈

作者还举了一个足球联赛例子。

通常足球是零和博弈。

一队进球，另一队受损。

但在某些积分和保级条件下，平局可能同时对两队有利。

这时双方的利益结构会突然改变。

原本的对抗关系可能转变为：

双方都不要冒险，维持平局即可共同获益。

重点

是不是零和博弈，不取决于表面上双方是否“对抗”，而取决于利益结构。

18. “未来的阴影”：合作需要未来

第12章最重要的概念之一是：

未来的阴影。

意思是：

如果我知道未来还会和你相遇，那么今天的行为就会被未来约束。

未来的阴影越长，合作越容易出现。

如果我知道这是最后一次互动，就更容易背叛。

如果我不知道什么时候结束，而且大概率还会反复相遇，就更倾向于维护关系。

重点

合作需要未来。

没有未来，就没有报复和回报的空间。

19. 为什么不能知道最后一轮？

如果重复博弈明确知道一共有100轮，会出现一个问题。

第100轮是最后一轮。

最后一轮之后没有未来，所以理性选择是背叛。

既然双方都知道第100轮会背叛，那么第99轮也变得像最后一轮。

第98轮也一样。

这样一路倒推，合作会瓦解。

所以重复囚徒困境最好满足：

双方不知道什么时候是最后一次互动。

重点

不确定的未来，反而有助于合作稳定。

20. 第一次世界大战：“自己活，也让别人活”

作者用一战壕沟战举例。

英军和德军在某些战线上长期对峙。

他们每天面对同一批敌人。

这种情况下，“未来的阴影”很长。

于是士兵之间出现了非正式的默契：

你不认真打我，我也不认真打你。

这不是因为双方突然变成朋友。

而是因为：

如果今天我猛烈攻击你，明天你就会报复我。

所以双方可能通过克制、仪式化射击、固定炮击时间等方式，维持一种局部合作。

重点

即使在战争这种极端敌对关系中，只要双方长期反复相遇，也可能出现针锋相对式合作。

21. 合作需要可识别的报复能力

“自己活，也让别人活”能维持，不只是因为双方善良。

还因为双方都有报复能力。

如果一方破坏默契，另一方可以惩罚它。

但这种惩罚又不能无限升级。

所以稳定合作需要：

我愿意先合作；
你背叛我，我能报复；
你停止背叛，我也停止报复；
双方都知道对方有能力惩罚。

重点

合作不是没有武力或惩罚，而是惩罚被控制在维持合作的范围内。

22. 自然界中的例子一：细菌和宿主

作者接着把这个模型推广到自然界。

细菌和宿主之间也可以看成某种重复博弈。

如果宿主健康，细菌和宿主未来关系很长。

这时细菌过度伤害宿主不一定合算。

但如果宿主受重伤、快要死亡，“未来的阴影”变短。

这时细菌可能变得更有害。

重点

寄生者是否温和，可能取决于它和宿主之间还有多少未来。

23. 自然界中的例子二：无花果和榕小蜂

无花果树和榕小蜂互相依赖。

榕小蜂帮助无花果授粉。

无花果给榕小蜂提供繁殖场所。

但榕小蜂也可能“背叛”：

只产卵，不好好授粉。

无花果树的“报复”方式是：

抛弃这颗无花果，让里面的榕小蜂后代也死亡。

重点

即使植物没有意识，也可以通过自然选择形成类似“惩罚骗子”的机制。

24. 自然界中的例子三：雌雄同体海鲈鱼

作者还讲到一种雌雄同体鱼类。

这种鱼交配时，双方轮流承担雌性角色和雄性角色。

雌性角色成本更高，因为产卵更耗资源。

如果一方总想当雄性、不愿当雌性，就相当于背叛。

另一方可以报复：

下次也拒绝承担雌性角色；
或者直接结束伴侣关系。

结果是，这些鱼形成严格轮换。

重点

公平轮换也可以看成一种针锋相对式合作。

25. 自然界中的例子四：吸血蝙蝠

本章最后一个重要例子是吸血蝙蝠。

吸血蝙蝠夜间觅食。

有些个体吸到很多血，有些个体可能空腹而归。

空腹对蝙蝠很危险。

所以吃饱的蝙蝠有时会反刍血液，喂给饥饿同伴。

这看起来像利他。

但从重复囚徒困境看，它有互惠基础：

今天我救你；
明天我挨饿时，你可能救我；
如果你从不回报，我以后就可能不帮你。

研究发现，很多血液分享发生在亲属之间，但也有非亲属之间的分享。

关键是：

它们常常是长期同住的伙伴，未来还有很多次相遇机会。

重点

吸血蝙蝠说明，合作可以超越亲属关系，在长期伙伴之间形成。

这和第10章中“相互利他”的条件正好呼应：能识别个体，能记住过去，未来还会再次相遇。

26. 本章总结

第12章的核心是：

好人不一定垫后，好人可能终有好报。

但这里的“好人”不是无条件善良的人。

而是指一种特殊策略：

不首先背叛；
被背叛会报复；
对方恢复合作后能宽恕；
不执着于比对方赢得更多；
能在长期互动中维护合作关系。

一次性囚徒困境中，背叛往往占优势。

但在重复囚徒困境中，合作有了进化空间。

阿克塞尔罗德的计算机竞赛显示，针锋相对这种简单策略非常成功。

它的成功来自善良、报复、宽容、不嫉妒。

本章还说明，很多现实关系不是零和博弈，而是非零和博弈。

如果双方误以为“你赢我就输”，就可能一起受损。

自然界中的细菌、无花果和榕小蜂、雌雄同体海鲈鱼、吸血蝙蝠，都可以用重复博弈和互惠利他的逻辑来理解。

一句话记：

在有未来、有记忆、有识别、有惩罚的关系中，合作不是反自私基因的例外，而是自私基因可以采用的成功策略。

27. 本章关键词

关键词	简单解释	本章作用
好人	在本章中指不首先背叛的策略	重新解释“好人终有好报”
囚徒困境	合作对双方有利，但个体有背叛诱惑的博弈	本章核心模型
合作	选择互惠、帮助或克制	可能带来长期收益
背叛	利用对方合作而自己不付成本	一次性互动中常有诱惑
重复囚徒困境	同一双方反复进行囚徒困境	合作得以进化的关键条件
阿克塞尔罗德	研究重复囚徒困境的学者	提供计算机竞赛和理论框架
针锋相对	第一轮合作，之后复制对方上一轮行为	本章最重要的成功策略
善良策略	不首先背叛的策略	成功合作策略的特征之一
报复	对背叛者进行惩罚	防止骗子长期占便宜
宽容	惩罚后能恢复合作	防止报复循环无限持续
不嫉妒	不追求比对方赢得更多，而追求共同收益	帮助理解非零和合作
零和博弈	一方赢等于另一方输	不是所有现实关系都属于这一类
非零和博弈	双方可以共同获益或共同受损	囚徒困境和多数合作关系的性质
未来的阴影	双方预期未来还会继续互动	合作稳定的重要条件
永远合作	无论对方怎样都合作	太容易被骗子利用
永远背叛	无论对方怎样都背叛	在坏环境中稳定，但难以产生共同收益
集体稳定策略	达到一定数量后能稳定维持的策略群	说明合作需要临界数量
自己活，也让别人活	一战壕沟中出现的非正式克制默契	人类战争中的重复博弈例子
无花果—榕小蜂	植物与昆虫的互利和惩罚机制	说明无意识生物也能“惩罚骗子”
吸血蝙蝠	会把血液分享给饥饿同伴的蝙蝠	说明互惠利他可在非亲属间形成