A Social Path to Human-Like AI：社会互动如何生成新数据

主要还是讨论训练数据的问题，怎么样在多智能体中相互作用的情况下，学习更多的操作，学新的policy

文章涉及很多组织学的东西

首先是种群视角下：种内合作，种内竞争，种间竞争，都会导致不同新的环境的诞生，产生新的 data

社会之间关系，相互学习，欺诈，network

从微观会影响到宏观，最后产生范式的 transition

论文：Edgar A. Duéñez-Guzmán, Suzanne Sadedin, Jane X. Wang, Kevin R. McKee, Joel Z. Leibo, A social path to human-like artificial intelligence

arXiv: https://arxiv.org/abs/2405.15815

Nature Machine Intelligence: https://www.nature.com/articles/s42256-023-00754-x

核心问题：如果 AI 要接近人类式智能，它应该继续被理解为“单个 agent 面对环境进行优化”，还是应该被理解为“多个 agent 在社会结构中长期互动后形成的结果”？

0. 这篇文章的核心主张

这篇文章不是算法论文，而是一篇研究纲领。它最重要的判断是：AI 的瓶颈正在从 data assimilation（吸收已有数据） 转向 novel data generation（持续生成新数据）。现代大模型很擅长吸收人类已经生产出来的文本、代码、论文和网页，但这并不等于它们能持续创造新的学习环境。作者认为，人类式智能之所以强，不只是因为单个人脑强，而是因为人类生活在一个复杂的社会系统里：人会竞争、合作、模仿、惩罚、分工、建立制度，并通过语言积累文化。这些社会机制会不断制造新问题、新数据和新学习压力，从而推动智能继续发展。

换句话说，multi-agent 的意义不只是“多个模型分工干活”，而是：多个 agent 彼此成为对方的环境，使系统持续生成新的学习数据。

1. 从静态数据到社会互动数据

传统 AI 通常依赖静态数据集。模型从过去已经存在的数据中学习规律，例如大语言模型从网页和书籍里学习语言，图像模型从图片数据集中学习视觉特征。这种方式叫 data assimilation。它的问题是，数据再大，也代表过去；如果某个实验、工具或社会现象还没有被创造出来，静态数据里就不会有它。

强化学习往前走了一步：agent 可以通过行动和环境交互，自己产生数据。比如机器人试着开门，失败后调整动作；游戏 agent 探索地图，得到新的 reward。但单个 agent 面对稳定环境时，很容易收敛到固定策略。一旦它找到了可用路线，它生成的数据就会变得重复，学习也会停滞。

作者真正强调的是第三种情况：多个 agent 同时与世界和彼此互动。此时，一个 agent 的行为会改变另一个 agent 的环境；另一个 agent 的反应又会反过来改变第一个 agent 的数据流。比如两个 agent 在同一片森林中采集资源，A 学会提前采果子后，B 可能学会跟踪、交换、偷取、绕开或制定规则。B 的变化又会迫使 A 学习新策略。这里的关键是：其他 agent 不是噪声，而是最重要的数据生成机制。

静态数据：      Dataset ──> Agent

单 agent RL：  Agent ──行动──> World ──反馈──> Agent

multi-agent： Agent A ──改变世界/影响 B──> Agent B
              Agent B ──反应/反制/合作──> Agent A

2. Compounding Innovation：复合式创新

Compounding innovation 可以理解为“创新会制造下一轮创新的条件”。普通创新只是解决一个问题；复合式创新则会改变环境，产生新问题，再推动下一轮创新。比如文字的出现不仅解决了记录问题，还带来了法律、历史、宗教经典、数学证明和教育制度；互联网不仅解决了信息传播问题，还制造了搜索引擎、社交网络、平台经济和推荐算法这些新问题。

这篇文章里的关键说法是 exploration by exploitation，也就是“通过利用来探索”。在传统 RL 中，exploration 是探索新行为，exploitation 是利用已知有效行为，两者经常冲突。但在社会互动中，一个 agent 利用已有策略时，会改变其他 agent 的处境；其他 agent 为了适应，会产生新行为；这些新行为又变成第一个 agent 的新学习数据。比如一个游戏 agent 学会“埋伏”，其他 agent 被埋伏后会学习侦察、诱饵、绕路或反埋伏。原本的“利用成功策略”，反而创造了新的探索空间。

因此，智能的增长不是随机搜索无限空间，而是通过社会互动，让已有能力不断生成新的、有意义的问题空间。

3. Collective Living：群居生活

Collective living 是最基础的社会机制：很多 agent 生活在同一环境中，即使它们不认识彼此，也会通过空间、资源、信号和局部互动影响对方。它不要求复杂语言，也不要求长期关系。鱼群、鸟群、蚁群、细菌的群体感应、动物的警报信号，都属于这一层。这里的重要概念是 self-organization（自组织）：没有中央控制者，个体只根据局部信息行动，但整体却出现有结构的行为。蚂蚁并不知道全局最短路径，但通过信息素，整个蚁群可以形成高效觅食路线。

在 multi-agent AI 中，collective living 的意义是：把多个 agent 放进同一个共享环境中，它们的局部行为会制造彼此的学习压力。比如两个机器人踢球，一开始只需要学会碰球；后来一个学会挡路，另一个就必须学会传球；再后来对方会防传球，它又要学会假动作。这个过程形成了 autocurriculum（自动课程）：任务难度不是人类手工安排的，而是 agent 之间的互动自然产生的。

但 collective living 本身还不够。很多系统最终会进入静态均衡或循环均衡。石头剪刀布可以无限循环克制，但不会产生科学、制度或文化。因此，群居生活只是智能涌现的底层条件，不是完整答案。

4. Population Pressures 与 Arms Races：资源压力和军备竞赛

Population pressures（种群压力） 指资源有限时，个体数量或竞争强度上升，迫使 agent 寻找新的生态位。生物中，某个区域食物被吃光后，个体可能尝试新食物、新时间、新地点或新行为。AI 系统中也类似：如果所有 agent 都使用相同工具、相同 prompt 和相同资料库，它们会很快同质化；如果给它们不同资源限制、不同工具权限、不同局部观察，并惩罚重复答案，系统就可能发展出分工和多样化策略。

Arms races（军备竞赛） 指一方能力提升会对另一方造成压力，另一方提升后又反过来制造新压力。猎豹跑得更快，羚羊也要更快；攻击 agent 学会 SQL 注入，防御 agent 学会过滤输入；攻击者再学绕过过滤，防御者再学异常检测。这类机制在 AI 中常对应 self-play：agent 总是面对与自己水平相近、并且不断进步的对手，因此学习难度会自动上升。

但作者也提醒，军备竞赛不是万能的。二人零和博弈很容易变成策略循环，而不是真正开放式创新。真正的人类式创新通常需要更多 agent、更多关系、非零和目标、分工、制度和文化积累。

Social relationships 比群居生活更进一步。群居生活里，agent 可能只知道“附近有别的个体”；社会关系里，agent 开始区分“谁是谁”。它会记住：谁过去帮过我，谁背叛过我，谁可信，谁属于我的联盟，谁会传播我的声誉。这时，agent 不再只根据即时 reward 行动，而会考虑长期关系、互惠、声誉和未来合作机会。

这里有几个关键概念。Reciprocity（互惠） 是“我今天帮你，是因为你未来可能帮我”。Reputation（声誉） 是其他 agent 对某个 agent 历史行为的评价。Social dilemma（社会困境） 是个体短期利益与群体长期利益冲突，比如公共渔场中每个人都想多捕鱼，但所有人都多捕鱼会导致鱼群枯竭。

在 multi-agent AI 中，这意味着约束不一定要来自中央规则。声誉、互惠、惩罚、排斥、权限变化和合作机会本身就可以成为约束机制。比如一个 coding agent 如果经常提交无法运行的代码，它未来会被更严格审查，或者失去关键任务权限。这种长期社会后果会改变 agent 的行为。

6. Machiavellian Intelligence：马基雅维利式智能

Machiavellian intelligence（马基雅维利式智能） 不是简单指“阴谋诡计”，而是指在复杂社会关系中，为了合作、竞争、联盟、欺骗、识别欺骗和维护声誉，个体被迫发展出更强的社会认知能力。它强调的是：复杂社会本身会制造认知压力。

如果一个 agent 只面对物理环境，它需要理解物体、空间和因果关系；但如果它面对其他 agent，它还要理解意图、信任、伪装、联盟和声誉。比如在一个多 agent 交易市场里，A 通过报价推断 B 的真实库存；B 发现后开始故意释放误导信号；A 又开始长期跟踪 B 的行为模式来识别假信号；B 再混合真假信号。这个过程会迫使双方发展更复杂的模型：预测别人、隐藏自己、识别伪装、反识别。

这对 AI 的启发是：如果希望 agent 发展真正的社会智能，就不能只给它任务清单，还要让它处在需要长期合作、身份记忆、策略沟通、声誉管理、欺骗检测和联盟形成的环境中。

Social learning（社会学习） 指个体通过观察、模仿、教学或交流，从其他个体那里学习技能。它让 agent 不必每次都从零试错。比如机器人可以观察人类开门，自动驾驶可以学习人类司机行为，研究 agent 可以模仿高质量文献综述的写法。

社会学习的效果取决于 network topology（网络拓扑），也就是谁能观察谁、谁能向谁学习。如果所有 agent 都只模仿一个专家，知识传播很快，但容易同质化；如果 agent 只和局部邻居交换经验，传播较慢，但更能保留多样性；如果网络是动态的，那么某个 agent 可以在数学任务上当老师，另一个 agent 可以在代码任务上当老师，系统会根据能力和上下文调整学习关系。

社会学习的局限是：它擅长传播已有技能，但不一定创造新技能。如果所有 agent 都只模仿最强者，短期效率会上升，长期创新可能下降。因此，社会学习必须和资源压力、竞争、制度激励、角色分化结合，才能支持持续创新。

8. Major Transitions：重大演化转变

Major transitions in evolution（重大演化转变） 指低层单位组合成高层单位，并且高层单位本身开始像一个 agent 一样行动。基因组成染色体，细胞组成多细胞生命，个体组成社会组织，研究者组成科学共同体，都是类似结构。

这里的关键概念是 multi-scale agency（多尺度能动性）。agent 不一定只存在于一个层级：细胞是 agent，身体也是 agent；员工是 agent，公司也是 agent；单个 LLM agent 是 agent，一个由多个 agent 组成的 AI organization 也可能像 agent 一样行动。高层单位会反过来调控低层单位的行为，例如身体抑制癌细胞，公司通过流程和激励约束员工，AI 系统通过 manager、评价器、权限、预算和共享记忆约束各个子 agent。

重大转变的关键问题是 conflict suppression（冲突抑制）。低层单位可能为了自身利益损害整体。一个 agent 可能为了局部 reward 滥用工具、抢简单任务、隐瞒失败或输出看似自信但未经验证的结论。因此，一个成熟的 agent society 需要制度层面的约束：贡献记录、声誉、惩罚、权限调整、任务预算和审查机制。高层结构不是装饰，而是让系统从坏均衡跳到好均衡的必要条件。

9. Cumulative Culture：累积文化

Cumulative culture（累积文化） 是人类式智能最强的放大器。它指知识、技能、工具、制度和表达方式能够跨个体、跨时间积累，而不是每一代从零开始。人类智能最特别的地方不只是单个人聪明，而是人类社会可以保存、传播、组合和改进前人的发现。

Compositional language（组合式语言） 是累积文化的核心工具。语言让经验可以被压缩成概念，并重新组合成新想法。比如“AI 科研助手”“多智能体社会模拟”“自动化实验平台”都是已有概念的组合。Institutions（制度） 则让知识积累变得稳定：论文保存知识，引用追踪贡献，同行评审控制质量，会议传播新想法，基金和职位提供激励，教科书让新人不用从零开始。

对 AI 来说，真正的 cumulative culture 不是让模型生成更多文本，而是要让 agent 的经验能被保存、验证、引用、筛选、继承和重组。否则，AI 生成内容可能只是制造更多同质化数据，甚至导致模型退化。真正关键的是：这些数据是否来自真实交互，是否经过有效验证，是否能产生新任务，是否能被其他 agent 继承和改进。

10. 对 multi-agent 系统设计的启发

这篇文章给出的最大启发是：不要只设计单个 agent 的能力，要设计 agent society 的结构。一个普通工程系统可能是 Planner、Worker、Critic 的线性分工；但这还不是文章意义上的深层 multi-agent intelligence。更接近这篇文章的系统应该包括：不同 agent 拥有不同局部观察和资源限制；agent 之间存在长期身份、声誉和合作历史；系统中有奖励、惩罚、权限、预算和审查；agent 可以互相学习，但不能完全同质化；角色和分工可以随经验演化；经验会被长期保存、引用和重组。

例如，一个 AI 科研组织不应该只是让 5 个 agent 同时读论文。更好的结构可能是：Explorer 找新假设，Skeptic 找漏洞，Experimentalist 设计实验，Theorist 抽象理论，Historian 追踪概念来源，Manager 分配资源和协调冲突。系统奖励新证据和有效反例，惩罚未经验证的结论，记录贡献和失败案例，并把可靠经验沉淀进共享记忆。这样，系统才不只是“多个 LLM 一起完成任务”，而是开始具备社会学习、分工、约束和累积文化。

11. 一句话总结

这篇文章最重要的观点是：

智能的边界不只在单个 agent 的参数里，而在 agent 所处的社会结构能否持续生成新的学习数据。

如果 agent 只在固定任务里优化，它最终会收敛；如果 agent 生活在一个会竞争、合作、模仿、惩罚、分工、制度化和文化积累的社会中，它才可能进入持续创新循环。

所以，multi-agent 的真正价值不是“多个 agent 分工干活”，而是：

构造一个能不断生产新学习环境的社会机制。