《自私的基因》第12章:好人终有好报
核心问题:如果自然选择偏向自私,为什么“好人”不一定总是吃亏?为什么合作、宽容、互惠有时反而能成功?
作者的回答:在一次性互动中,背叛常常占优势;但在反复相遇的关系中,善良、报复、宽容、不嫉妒的策略可以胜出。只要未来还有再次相遇的机会,合作就可能成为自私基因的有效策略。
0. 本章一句话
第12章想说明的是:
“好人”并不必然失败。在重复囚徒困境中,最成功的策略往往不是无条件善良,也不是无情欺骗,而是先合作、会报复、能宽恕、不嫉妒的策略。合作能够进化,但前提是互动会重复、个体能识别彼此、背叛会被惩罚。
1. 本章接续第10章:从相互利他到博弈论
第10章已经讲过“相互利他”。
它的逻辑是:
今天我帮你,是因为未来你可能帮我。
第10章中的“斤斤计较者”就是这种思路:
-
一开始愿意合作;
-
如果对方回报,就继续合作;
-
如果对方欺骗,以后就拒绝帮助。
这种策略不是无条件善良,而是:
有记忆、有惩罚、有选择性的合作。
第12章就是把这个问题进一步形式化。
作者借助罗伯特·阿克塞尔罗德的研究,说明:
在重复互动中,合作怎样从自私个体之间产生出来。
2. 什么是囚徒困境?
囚徒困境是一个简单博弈。
两个玩家各有两个选择:
-
合作;
-
背叛。
结果取决于两个人的共同选择。
大致有四种情况:
| 我 | 对方 | 我的结果 |
|---|---|---|
| 合作 | 合作 | 得到相互合作的奖赏 |
| 背叛 | 合作 | 得到背叛的诱惑 |
| 合作 | 背叛 | 付出失败者的代价 |
| 背叛 | 背叛 | 得到相互背叛的惩罚 |
囚徒困境的关键排序是:
背叛的诱惑 > 相互合作的奖赏 > 相互背叛的惩罚 > 失败者的代价
为什么叫“困境”?
因为从单个回合看:
-
如果对方合作,我背叛最赚;
-
如果对方背叛,我也只能背叛来减少损失。
所以理性推理会得出:
无论对方怎样,我都应该背叛。
但问题是:
如果双方都这样想,结果就是双方都背叛,反而比双方合作更差。
3. 一次性博弈中,背叛很有优势
在一次性囚徒困境中,你只和对方互动一次。
没有未来。
没有报复。
没有名声。
没有下次合作。
这时背叛很容易成为优势策略。
因为你不必担心对方以后惩罚你。
重点
如果世界只由一次性互动组成,那么“好人”确实容易吃亏。
这也是很多人误解“自私基因”的来源:
既然个体自私,那是不是只能互相欺骗?
第12章要说明的是:
这只适用于一次性互动,不适用于长期重复互动。
4. 重复囚徒困境:希望出现了
现实中的生物和人类关系,很多不是一次性互动。
而是会反复相遇。
比如:
-
同一群鸟反复互相清理寄生虫;
-
清洁工鱼和大鱼反复见面;
-
邻居长期生活在同一区域;
-
士兵长期面对同一条战线;
-
共生物种长期互相依赖。
一旦互动会重复,情况就改变了。
因为今天的背叛会影响明天的待遇。
今天的合作也可能换来未来的合作。
重点
重复互动让“未来”进入了当下的决策。
这就是合作能够稳定的关键。
5. 第10章的鸟类互相清洁,就是重复囚徒困境
第10章里讲过互相梳理或清除寄生虫。
一只鸟自己够不到头部,需要同伴帮忙。
但帮助同伴要花时间和精力。
这正好像囚徒困境:
-
双方互相帮助:都受益;
-
我不帮你但你帮我:我最赚;
-
我帮你但你不帮我:我最亏;
-
双方都不帮:都不好,但还不是最惨。
所以问题是:
怎样防止骗子只接受帮助却不回报?
第12章的回答是:
靠重复互动中的策略。
6. 阿克塞尔罗德的计算机竞赛
阿克塞尔罗德设计了一个比赛。
他邀请专家提交不同策略,让这些策略在计算机里互相进行重复囚徒困境。
每个策略不是一个人,而是一套固定规则。
例如:
-
永远合作;
-
永远背叛;
-
随机合作或背叛;
-
先合作,之后模仿对方上一轮;
-
偶尔试探性背叛;
-
被背叛后永远不原谅。
然后让它们反复对战,比较总得分。
重点
这相当于模拟:
不同合作策略在自然选择中互相竞争。
得分高的策略,就像能留下更多后代的基因策略。
7. 最成功的策略:针锋相对
第一轮竞赛中,获胜策略非常简单。
它叫:
针锋相对。
它的规则只有两条:
-
第一轮先合作;
-
之后每一轮复制对方上一轮的行为。
也就是说:
-
对方合作,我下一轮合作;
-
对方背叛,我下一轮背叛;
-
对方重新合作,我也重新合作。
重点
针锋相对并不复杂。
它不是天真善良。
它也不是无情报复。
它是:
先释放善意,但不会让骗子一直占便宜。
8. 针锋相对为什么厉害?
针锋相对有几个优点。
第一,它善良
它从不首先背叛。
所以它容易和其他善良策略建立长期合作。
第二,它会报复
如果对方背叛,它下一轮就背叛。
所以骗子不能长期免费利用它。
第三,它宽容
它只记住上一轮。
如果对方停止背叛、重新合作,它也立刻恢复合作。
所以它不会陷入永久仇恨。
第四,它不嫉妒
它不追求“比对方多赢”。
它追求的是双方一起从“银行家”那里拿到更高总收益。
本章重点
成功的合作策略不是“永远善良”,而是“善良 + 报复 + 宽容 + 不嫉妒”。
9. “善良”策略为什么表现好?
阿克塞尔罗德发现,竞赛中排名靠前的策略大多是善良策略。
这里的“善良”有一个技术含义:
不首先背叛。
善良策略不是不会背叛。
针锋相对就会背叛。
但它只在被背叛后才背叛。
这说明:
在长期关系中,主动欺骗常常会破坏未来收益。
看起来聪明的恶意策略,短期可能占便宜。
但长期会让别人不再合作。
最后自己也失去合作收益。
10. 宽容同样重要
第10章中的“斤斤计较者”永远记仇。
一旦被欺骗,就永远不再帮助对方。
这能防止被骗子剥削。
但问题是:
如果对方只是偶然犯错,永远记仇会导致长期合作彻底破裂。
针锋相对更宽容。
它惩罚一次后,就给对方重新合作的机会。
重点
报复能防骗,宽容能修复关系。
只有报复没有宽容,容易陷入冤冤相报。
只有宽容没有报复,又容易被骗子利用。
11. 太宽容也有风险
作者也指出,宽容不是越多越好。
比如“两报还一报”策略:
对方连续背叛两次,才开始报复。
这种策略能减少误会导致的报复循环。
但它也可能被更狡猾的恶意策略利用。
所以最稳定的合作策略,通常要在两者之间平衡:
-
足够善良,能建立合作;
-
足够强硬,能防止剥削;
-
足够宽容,能恢复合作;
-
不能宽容到让骗子长期占便宜。
重点
合作不是软弱,而是一种有条件、有边界的策略。
12. 针锋相对不是严格的进化稳定策略
作者随后引入一个复杂问题。
针锋相对很强,但它不是严格意义上的进化稳定策略。
原因是:
在一个全是善良策略的环境中,很多策略看起来都一样。
比如:
-
针锋相对;
-
永远合作;
-
其他从不首先背叛的策略。
只要大家都一直合作,它们的表现就无法区分。
这样一来,一些过分善良的策略可能混进来。
而这些过分善良的策略又可能为恶意策略打开入口。
重点
一个合作系统如果太安全,可能会让防骗机制退化;防骗机制退化后,骗子又可能回来。
13. 集体稳定策略:合作需要达到临界数量
阿克塞尔罗德提出“集体稳定策略”的想法。
一个种群里可能有两个稳定状态:
-
永远背叛;
-
以针锋相对为代表的合作策略。
如果“永远背叛”已经占主导,少数合作者很难成功。
因为他们很难遇到彼此。
但如果合作者聚集到一定数量,彼此之间能反复合作,就能跨过一个临界点。
之后合作策略可能扩张。
重点
合作有时需要先形成小团体。
第10章里讲过,斤斤计较者达到一定数量后,可以互相合作并排斥骗子。第12章把这个思路进一步放进重复囚徒困境和进化稳定策略里。
14. 亲属聚集可以帮助合作起步
作者提出一个重要机制:
亲属常常生活在一起。
这会让相似基因携带者更容易相遇。
如果某些个体携带倾向于针锋相对的策略,它们可能在局部地区聚集。
这样即使它们在整体种群中很少,也能在小范围内互相合作。
一旦这个合作小团体扩大,就可能向外扩散。
重点
亲属选择和互惠利他并不是完全分开的。
亲属聚集可以帮助互惠策略度过早期困难阶段。
15. 不嫉妒:不要把非ni shish零和博弈误当成零和博弈
阿克塞尔罗德说,针锋相对还有一个特点:
不嫉妒。
它不追求“我一定要比你赢得更多”。
它追求的是:
我们都从整个系统里获得更高收益。
这引出零和博弈和非零和博弈的区别。
零和博弈
一方赢,就是另一方输。
例如很多竞技比赛。
非零和博弈
双方可以一起变好,也可以一起变差。
囚徒困境就是非零和博弈。
双方合作时,两个人都能比双方背叛更好。
重点
很多现实关系不是“你输我赢”,而是“我们能不能一起避免共同损失”。
把非零和博弈误当成零和博弈,会让双方都变差。
16. 离婚和律师:人为制造零和对抗
作者用离婚诉讼举例。
一段婚姻破裂时,双方本来仍有合作空间。
尤其如果有孩子、财产、长期关系,双方都可能通过理性协商减少损失。
但法律和律师制度可能把它变成:
我方 vs 你方
这样夫妻被迫进入零和对抗。
结果可能是:
-
夫妻双方都损失时间和金钱;
-
律师却从长期争执中获益;
-
原本可以合作解决的问题,被制度变成对抗游戏。
重点
有些冲突并非天然是零和博弈,而是被制度、语言和角色安排塑造成零和博弈。
17. 足球例子:零和博弈也可能临时变成非零和博弈
作者还举了一个足球联赛例子。
通常足球是零和博弈。
一队进球,另一队受损。
但在某些积分和保级条件下,平局可能同时对两队有利。
这时双方的利益结构会突然改变。
原本的对抗关系可能转变为:
双方都不要冒险,维持平局即可共同获益。
重点
是不是零和博弈,不取决于表面上双方是否“对抗”,而取决于利益结构。
18. “未来的阴影”:合作需要未来
第12章最重要的概念之一是:
未来的阴影。
意思是:
如果我知道未来还会和你相遇,那么今天的行为就会被未来约束。
未来的阴影越长,合作越容易出现。
如果我知道这是最后一次互动,就更容易背叛。
如果我不知道什么时候结束,而且大概率还会反复相遇,就更倾向于维护关系。
重点
合作需要未来。
没有未来,就没有报复和回报的空间。
19. 为什么不能知道最后一轮?
如果重复博弈明确知道一共有100轮,会出现一个问题。
第100轮是最后一轮。
最后一轮之后没有未来,所以理性选择是背叛。
既然双方都知道第100轮会背叛,那么第99轮也变得像最后一轮。
第98轮也一样。
这样一路倒推,合作会瓦解。
所以重复囚徒困境最好满足:
双方不知道什么时候是最后一次互动。
重点
不确定的未来,反而有助于合作稳定。
20. 第一次世界大战:“自己活,也让别人活”
作者用一战壕沟战举例。
英军和德军在某些战线上长期对峙。
他们每天面对同一批敌人。
这种情况下,“未来的阴影”很长。
于是士兵之间出现了非正式的默契:
你不认真打我,我也不认真打你。
这不是因为双方突然变成朋友。
而是因为:
如果今天我猛烈攻击你,明天你就会报复我。
所以双方可能通过克制、仪式化射击、固定炮击时间等方式,维持一种局部合作。
重点
即使在战争这种极端敌对关系中,只要双方长期反复相遇,也可能出现针锋相对式合作。
21. 合作需要可识别的报复能力
“自己活,也让别人活”能维持,不只是因为双方善良。
还因为双方都有报复能力。
如果一方破坏默契,另一方可以惩罚它。
但这种惩罚又不能无限升级。
所以稳定合作需要:
-
我愿意先合作;
-
你背叛我,我能报复;
-
你停止背叛,我也停止报复;
-
双方都知道对方有能力惩罚。
重点
合作不是没有武力或惩罚,而是惩罚被控制在维持合作的范围内。
22. 自然界中的例子一:细菌和宿主
作者接着把这个模型推广到自然界。
细菌和宿主之间也可以看成某种重复博弈。
如果宿主健康,细菌和宿主未来关系很长。
这时细菌过度伤害宿主不一定合算。
但如果宿主受重伤、快要死亡,“未来的阴影”变短。
这时细菌可能变得更有害。
重点
寄生者是否温和,可能取决于它和宿主之间还有多少未来。
23. 自然界中的例子二:无花果和榕小蜂
无花果树和榕小蜂互相依赖。
榕小蜂帮助无花果授粉。
无花果给榕小蜂提供繁殖场所。
但榕小蜂也可能“背叛”:
只产卵,不好好授粉。
无花果树的“报复”方式是:
抛弃这颗无花果,让里面的榕小蜂后代也死亡。
重点
即使植物没有意识,也可以通过自然选择形成类似“惩罚骗子”的机制。
24. 自然界中的例子三:雌雄同体海鲈鱼
作者还讲到一种雌雄同体鱼类。
这种鱼交配时,双方轮流承担雌性角色和雄性角色。
雌性角色成本更高,因为产卵更耗资源。
如果一方总想当雄性、不愿当雌性,就相当于背叛。
另一方可以报复:
-
下次也拒绝承担雌性角色;
-
或者直接结束伴侣关系。
结果是,这些鱼形成严格轮换。
重点
公平轮换也可以看成一种针锋相对式合作。
25. 自然界中的例子四:吸血蝙蝠
本章最后一个重要例子是吸血蝙蝠。
吸血蝙蝠夜间觅食。
有些个体吸到很多血,有些个体可能空腹而归。
空腹对蝙蝠很危险。
所以吃饱的蝙蝠有时会反刍血液,喂给饥饿同伴。
这看起来像利他。
但从重复囚徒困境看,它有互惠基础:
-
今天我救你;
-
明天我挨饿时,你可能救我;
-
如果你从不回报,我以后就可能不帮你。
研究发现,很多血液分享发生在亲属之间,但也有非亲属之间的分享。
关键是:
它们常常是长期同住的伙伴,未来还有很多次相遇机会。
重点
吸血蝙蝠说明,合作可以超越亲属关系,在长期伙伴之间形成。
这和第10章中“相互利他”的条件正好呼应:能识别个体,能记住过去,未来还会再次相遇。
26. 本章总结
第12章的核心是:
好人不一定垫后,好人可能终有好报。
但这里的“好人”不是无条件善良的人。
而是指一种特殊策略:
-
不首先背叛;
-
被背叛会报复;
-
对方恢复合作后能宽恕;
-
不执着于比对方赢得更多;
-
能在长期互动中维护合作关系。
一次性囚徒困境中,背叛往往占优势。
但在重复囚徒困境中,合作有了进化空间。
阿克塞尔罗德的计算机竞赛显示,针锋相对这种简单策略非常成功。
它的成功来自善良、报复、宽容、不嫉妒。
本章还说明,很多现实关系不是零和博弈,而是非零和博弈。
如果双方误以为“你赢我就输”,就可能一起受损。
自然界中的细菌、无花果和榕小蜂、雌雄同体海鲈鱼、吸血蝙蝠,都可以用重复博弈和互惠利他的逻辑来理解。
一句话记:
在有未来、有记忆、有识别、有惩罚的关系中,合作不是反自私基因的例外,而是自私基因可以采用的成功策略。
27. 本章关键词
| 关键词 | 简单解释 | 本章作用 |
|---|---|---|
| 好人 | 在本章中指不首先背叛的策略 | 重新解释“好人终有好报” |
| 囚徒困境 | 合作对双方有利,但个体有背叛诱惑的博弈 | 本章核心模型 |
| 合作 | 选择互惠、帮助或克制 | 可能带来长期收益 |
| 背叛 | 利用对方合作而自己不付成本 | 一次性互动中常有诱惑 |
| 重复囚徒困境 | 同一双方反复进行囚徒困境 | 合作得以进化的关键条件 |
| 阿克塞尔罗德 | 研究重复囚徒困境的学者 | 提供计算机竞赛和理论框架 |
| 针锋相对 | 第一轮合作,之后复制对方上一轮行为 | 本章最重要的成功策略 |
| 善良策略 | 不首先背叛的策略 | 成功合作策略的特征之一 |
| 报复 | 对背叛者进行惩罚 | 防止骗子长期占便宜 |
| 宽容 | 惩罚后能恢复合作 | 防止报复循环无限持续 |
| 不嫉妒 | 不追求比对方赢得更多,而追求共同收益 | 帮助理解非零和合作 |
| 零和博弈 | 一方赢等于另一方输 | 不是所有现实关系都属于这一类 |
| 非零和博弈 | 双方可以共同获益或共同受损 | 囚徒困境和多数合作关系的性质 |
| 未来的阴影 | 双方预期未来还会继续互动 | 合作稳定的重要条件 |
| 永远合作 | 无论对方怎样都合作 | 太容易被骗子利用 |
| 永远背叛 | 无论对方怎样都背叛 | 在坏环境中稳定,但难以产生共同收益 |
| 集体稳定策略 | 达到一定数量后能稳定维持的策略群 | 说明合作需要临界数量 |
| 自己活,也让别人活 | 一战壕沟中出现的非正式克制默契 | 人类战争中的重复博弈例子 |
| 无花果—榕小蜂 | 植物与昆虫的互利和惩罚机制 | 说明无意识生物也能“惩罚骗子” |
| 吸血蝙蝠 | 会把血液分享给饥饿同伴的蝙蝠 | 说明互惠利他可在非亲属间形成 |