Skip to main content

A Social Path to Human-Like AI:社会互动如何生成新数据

主要还是讨论训练数据的问题,怎么样在多智能体中相互作用的情况下,学习更多的操作,学新的policy

文章涉及很多组织学的东西

首先是种群视角下:种内合作,种内竞争,种间竞争,都会导致不同新的环境的诞生,产生新的 data

社会之间关系,相互学习,欺诈,network

从微观会影响到宏观,最后产生范式的 transition

论文:Edgar A. Duéñez-Guzmán, Suzanne Sadedin, Jane X. Wang, Kevin R. McKee, Joel Z. Leibo, A social path to human-like artificial intelligence

arXiv: https://arxiv.org/abs/2405.15815

Nature Machine Intelligence: https://www.nature.com/articles/s42256-023-00754-x

核心问题:如果 AI 要接近人类式智能,它应该继续被理解为“单个 agent 面对环境进行优化”,还是应该被理解为“多个 agent 在社会结构中长期互动后形成的结果”?


0. 这篇文章的核心主张

这篇文章不是算法论文,而是一篇研究纲领。它最重要的判断是:AI 的瓶颈正在从 data assimilation(吸收已有数据) 转向 novel data generation(持续生成新数据)。现代大模型很擅长吸收人类已经生产出来的文本、代码、论文和网页,但这并不等于它们能持续创造新的学习环境。作者认为,人类式智能之所以强,不只是因为单个人脑强,而是因为人类生活在一个复杂的社会系统里:人会竞争、合作、模仿、惩罚、分工、建立制度,并通过语言积累文化。这些社会机制会不断制造新问题、新数据和新学习压力,从而推动智能继续发展。

换句话说,multi-agent 的意义不只是“多个模型分工干活”,而是:多个 agent 彼此成为对方的环境,使系统持续生成新的学习数据。


1. 从静态数据到社会互动数据

传统 AI 通常依赖静态数据集。模型从过去已经存在的数据中学习规律,例如大语言模型从网页和书籍里学习语言,图像模型从图片数据集中学习视觉特征。这种方式叫 data assimilation。它的问题是,数据再大,也代表过去;如果某个实验、工具或社会现象还没有被创造出来,静态数据里就不会有它。

强化学习往前走了一步:agent 可以通过行动和环境交互,自己产生数据。比如机器人试着开门,失败后调整动作;游戏 agent 探索地图,得到新的 reward。但单个 agent 面对稳定环境时,很容易收敛到固定策略。一旦它找到了可用路线,它生成的数据就会变得重复,学习也会停滞。

作者真正强调的是第三种情况:多个 agent 同时与世界和彼此互动。此时,一个 agent 的行为会改变另一个 agent 的环境;另一个 agent 的反应又会反过来改变第一个 agent 的数据流。比如两个 agent 在同一片森林中采集资源,A 学会提前采果子后,B 可能学会跟踪、交换、偷取、绕开或制定规则。B 的变化又会迫使 A 学习新策略。这里的关键是:其他 agent 不是噪声,而是最重要的数据生成机制。

静态数据:      Dataset ──> Agent

单 agent RL:  Agent ──行动──> World ──反馈──> Agent

multi-agent: Agent A ──改变世界/影响 B──> Agent B
              Agent B ──反应/反制/合作──> Agent A

2. Compounding Innovation:复合式创新

Compounding innovation 可以理解为“创新会制造下一轮创新的条件”。普通创新只是解决一个问题;复合式创新则会改变环境,产生新问题,再推动下一轮创新。比如文字的出现不仅解决了记录问题,还带来了法律、历史、宗教经典、数学证明和教育制度;互联网不仅解决了信息传播问题,还制造了搜索引擎、社交网络、平台经济和推荐算法这些新问题。

这篇文章里的关键说法是 exploration by exploitation,也就是“通过利用来探索”。在传统 RL 中,exploration 是探索新行为,exploitation 是利用已知有效行为,两者经常冲突。但在社会互动中,一个 agent 利用已有策略时,会改变其他 agent 的处境;其他 agent 为了适应,会产生新行为;这些新行为又变成第一个 agent 的新学习数据。比如一个游戏 agent 学会“埋伏”,其他 agent 被埋伏后会学习侦察、诱饵、绕路或反埋伏。原本的“利用成功策略”,反而创造了新的探索空间。

因此,智能的增长不是随机搜索无限空间,而是通过社会互动,让已有能力不断生成新的、有意义的问题空间。


3. Collective Living:群居生活

Collective living 是最基础的社会机制:很多 agent 生活在同一环境中,即使它们不认识彼此,也会通过空间、资源、信号和局部互动影响对方。它不要求复杂语言,也不要求长期关系。鱼群、鸟群、蚁群、细菌的群体感应、动物的警报信号,都属于这一层。这里的重要概念是 self-organization(自组织):没有中央控制者,个体只根据局部信息行动,但整体却出现有结构的行为。蚂蚁并不知道全局最短路径,但通过信息素,整个蚁群可以形成高效觅食路线。

在 multi-agent AI 中,collective living 的意义是:把多个 agent 放进同一个共享环境中,它们的局部行为会制造彼此的学习压力。比如两个机器人踢球,一开始只需要学会碰球;后来一个学会挡路,另一个就必须学会传球;再后来对方会防传球,它又要学会假动作。这个过程形成了 autocurriculum(自动课程):任务难度不是人类手工安排的,而是 agent 之间的互动自然产生的。

但 collective living 本身还不够。很多系统最终会进入静态均衡或循环均衡。石头剪刀布可以无限循环克制,但不会产生科学、制度或文化。因此,群居生活只是智能涌现的底层条件,不是完整答案。


4. Population Pressures 与 Arms Races:资源压力和军备竞赛

Population pressures(种群压力) 指资源有限时,个体数量或竞争强度上升,迫使 agent 寻找新的生态位。生物中,某个区域食物被吃光后,个体可能尝试新食物、新时间、新地点或新行为。AI 系统中也类似:如果所有 agent 都使用相同工具、相同 prompt 和相同资料库,它们会很快同质化;如果给它们不同资源限制、不同工具权限、不同局部观察,并惩罚重复答案,系统就可能发展出分工和多样化策略。

Arms races(军备竞赛) 指一方能力提升会对另一方造成压力,另一方提升后又反过来制造新压力。猎豹跑得更快,羚羊也要更快;攻击 agent 学会 SQL 注入,防御 agent 学会过滤输入;攻击者再学绕过过滤,防御者再学异常检测。这类机制在 AI 中常对应 self-play:agent 总是面对与自己水平相近、并且不断进步的对手,因此学习难度会自动上升。

但作者也提醒,军备竞赛不是万能的。二人零和博弈很容易变成策略循环,而不是真正开放式创新。真正的人类式创新通常需要更多 agent、更多关系、非零和目标、分工、制度和文化积累。


5. Social Relationships:社会关系

Social relationships 比群居生活更进一步。群居生活里,agent 可能只知道“附近有别的个体”;社会关系里,agent 开始区分“谁是谁”。它会记住:谁过去帮过我,谁背叛过我,谁可信,谁属于我的联盟,谁会传播我的声誉。这时,agent 不再只根据即时 reward 行动,而会考虑长期关系、互惠、声誉和未来合作机会。

这里有几个关键概念。Reciprocity(互惠) 是“我今天帮你,是因为你未来可能帮我”。Reputation(声誉) 是其他 agent 对某个 agent 历史行为的评价。Social dilemma(社会困境) 是个体短期利益与群体长期利益冲突,比如公共渔场中每个人都想多捕鱼,但所有人都多捕鱼会导致鱼群枯竭。

在 multi-agent AI 中,这意味着约束不一定要来自中央规则。声誉、互惠、惩罚、排斥、权限变化和合作机会本身就可以成为约束机制。比如一个 coding agent 如果经常提交无法运行的代码,它未来会被更严格审查,或者失去关键任务权限。这种长期社会后果会改变 agent 的行为。


6. Machiavellian Intelligence:马基雅维利式智能

Machiavellian intelligence(马基雅维利式智能) 不是简单指“阴谋诡计”,而是指在复杂社会关系中,为了合作、竞争、联盟、欺骗、识别欺骗和维护声誉,个体被迫发展出更强的社会认知能力。它强调的是:复杂社会本身会制造认知压力。

如果一个 agent 只面对物理环境,它需要理解物体、空间和因果关系;但如果它面对其他 agent,它还要理解意图、信任、伪装、联盟和声誉。比如在一个多 agent 交易市场里,A 通过报价推断 B 的真实库存;B 发现后开始故意释放误导信号;A 又开始长期跟踪 B 的行为模式来识别假信号;B 再混合真假信号。这个过程会迫使双方发展更复杂的模型:预测别人、隐藏自己、识别伪装、反识别。

这对 AI 的启发是:如果希望 agent 发展真正的社会智能,就不能只给它任务清单,还要让它处在需要长期合作、身份记忆、策略沟通、声誉管理、欺骗检测和联盟形成的环境中。


7. Social Learning:社会学习

Social learning(社会学习) 指个体通过观察、模仿、教学或交流,从其他个体那里学习技能。它让 agent 不必每次都从零试错。比如机器人可以观察人类开门,自动驾驶可以学习人类司机行为,研究 agent 可以模仿高质量文献综述的写法。

社会学习的效果取决于 network topology(网络拓扑),也就是谁能观察谁、谁能向谁学习。如果所有 agent 都只模仿一个专家,知识传播很快,但容易同质化;如果 agent 只和局部邻居交换经验,传播较慢,但更能保留多样性;如果网络是动态的,那么某个 agent 可以在数学任务上当老师,另一个 agent 可以在代码任务上当老师,系统会根据能力和上下文调整学习关系。

社会学习的局限是:它擅长传播已有技能,但不一定创造新技能。如果所有 agent 都只模仿最强者,短期效率会上升,长期创新可能下降。因此,社会学习必须和资源压力、竞争、制度激励、角色分化结合,才能支持持续创新。


8. Major Transitions:重大演化转变

Major transitions in evolution(重大演化转变) 指低层单位组合成高层单位,并且高层单位本身开始像一个 agent 一样行动。基因组成染色体,细胞组成多细胞生命,个体组成社会组织,研究者组成科学共同体,都是类似结构。

这里的关键概念是 multi-scale agency(多尺度能动性)。agent 不一定只存在于一个层级:细胞是 agent,身体也是 agent;员工是 agent,公司也是 agent;单个 LLM agent 是 agent,一个由多个 agent 组成的 AI organization 也可能像 agent 一样行动。高层单位会反过来调控低层单位的行为,例如身体抑制癌细胞,公司通过流程和激励约束员工,AI 系统通过 manager、评价器、权限、预算和共享记忆约束各个子 agent。

重大转变的关键问题是 conflict suppression(冲突抑制)。低层单位可能为了自身利益损害整体。一个 agent 可能为了局部 reward 滥用工具、抢简单任务、隐瞒失败或输出看似自信但未经验证的结论。因此,一个成熟的 agent society 需要制度层面的约束:贡献记录、声誉、惩罚、权限调整、任务预算和审查机制。高层结构不是装饰,而是让系统从坏均衡跳到好均衡的必要条件。


9. Cumulative Culture:累积文化

Cumulative culture(累积文化) 是人类式智能最强的放大器。它指知识、技能、工具、制度和表达方式能够跨个体、跨时间积累,而不是每一代从零开始。人类智能最特别的地方不只是单个人聪明,而是人类社会可以保存、传播、组合和改进前人的发现。

Compositional language(组合式语言) 是累积文化的核心工具。语言让经验可以被压缩成概念,并重新组合成新想法。比如“AI 科研助手”“多智能体社会模拟”“自动化实验平台”都是已有概念的组合。Institutions(制度) 则让知识积累变得稳定:论文保存知识,引用追踪贡献,同行评审控制质量,会议传播新想法,基金和职位提供激励,教科书让新人不用从零开始。

对 AI 来说,真正的 cumulative culture 不是让模型生成更多文本,而是要让 agent 的经验能被保存、验证、引用、筛选、继承和重组。否则,AI 生成内容可能只是制造更多同质化数据,甚至导致模型退化。真正关键的是:这些数据是否来自真实交互,是否经过有效验证,是否能产生新任务,是否能被其他 agent 继承和改进。


10. 对 multi-agent 系统设计的启发

这篇文章给出的最大启发是:不要只设计单个 agent 的能力,要设计 agent society 的结构。一个普通工程系统可能是 Planner、Worker、Critic 的线性分工;但这还不是文章意义上的深层 multi-agent intelligence。更接近这篇文章的系统应该包括:不同 agent 拥有不同局部观察和资源限制;agent 之间存在长期身份、声誉和合作历史;系统中有奖励、惩罚、权限、预算和审查;agent 可以互相学习,但不能完全同质化;角色和分工可以随经验演化;经验会被长期保存、引用和重组。

例如,一个 AI 科研组织不应该只是让 5 个 agent 同时读论文。更好的结构可能是:Explorer 找新假设,Skeptic 找漏洞,Experimentalist 设计实验,Theorist 抽象理论,Historian 追踪概念来源,Manager 分配资源和协调冲突。系统奖励新证据和有效反例,惩罚未经验证的结论,记录贡献和失败案例,并把可靠经验沉淀进共享记忆。这样,系统才不只是“多个 LLM 一起完成任务”,而是开始具备社会学习、分工、约束和累积文化。


11. 一句话总结

这篇文章最重要的观点是:

智能的边界不只在单个 agent 的参数里,而在 agent 所处的社会结构能否持续生成新的学习数据。

如果 agent 只在固定任务里优化,它最终会收敛;如果 agent 生活在一个会竞争、合作、模仿、惩罚、分工、制度化和文化积累的社会中,它才可能进入持续创新循环。

所以,multi-agent 的真正价值不是“多个 agent 分工干活”,而是:

构造一个能不断生产新学习环境的社会机制。