2026

← 返回博客

MAS Conference Papers: 近期多智能体系统论文阅读清单
TLDR：此页面是最近 MAS 论文的排名阅读候选列表，优先考虑协作结构、拓扑设计、运行时效率和验证。
4分钟阅读 · 2026年6月4日
2026 · multi-agent-systems · paper-list · reading · agents
超越个体智能：多智能体系统的 LIFE 框架
LIFE 调查很有用，因为它将 LLM 多智能体系统重新构建为一个生命周期：构建个人能力、集成协作、归因故障和发展系统。
3分钟阅读 · 2026年6月1日
2026 · multi-agent-systems · agent-systems · reading · agents
自私的基因：第 11 章 meme 也是复制子
第 11 章将本书从基因延伸到文化：思想、习惯、旋律、仪式和理论也可以复制、竞争、变异，有时甚至追求自己的生存逻辑。
1分钟阅读 · 2026年6月1日
2026 · selfish-gene · reading
自私的基因：第 12 章好人终有好报
TLDR：重复的互动改变了自私的逻辑，当策略可以是友好的、报复性的、宽容的和不嫉妒的时候，合作就变得可行。
4分钟阅读 · 2026年6月1日
2026 · selfish-gene · reading
Sutton RL：第 6 章 - 时间差分学习
TLDR：TD 通过引导当前值估计，将蒙特卡洛采样与动态编程式更新相结合，从部分经验中学习更新。
10分钟阅读 · 2026年5月30日
2026 · sutton-rl · rl · learning
Sutton RL：第 5 章 - 蒙特卡罗方法
TLDR：蒙特卡罗方法从完整的采样片段中学习价值，用无模型的简单性来换取延迟更新和返回方差。
7分钟阅读 · 2026年5月29日
2026 · sutton-rl · rl · learning
Sutton RL：第 2 天多臂老虎机
TLDR：多臂老虎机通过消除状态转换并将动作价值估计作为中心来隔离探索/利用问题。
6分钟阅读 · 2026年5月28日
2026 · sutton-rl · rl · learning
Sutton 强化学习：第 3 天动态规划
动态规划是强化学习基于模型的起点：利用已知的 MDP 动力学，贝尔曼方程成为迭代值和策略更新规则。
4分钟阅读 · 2026年5月28日
2026 · sutton-rl · rl · learning