分类: research
-
MiniMax Sparse Attention:教长上下文模型使用索引
MiniMax Sparse Attention 将长上下文转化为可搜索记忆:学习索引选择相关的键值块,然后精确的 Softmax Attention 仅读取这些块。
-
Self-Harness:会改进自己的 harness
Self-Harness 更适合理解为证据驱动的 harness 版本控制:挖掘失败轨迹,提出有边界的 harness 编辑,只提升能通过回归测试的改动。
-
Pi Agent:容器化与上下文压缩
coding agent 同时需要两个边界:一个控制它们可以做什么的执行边界,以及一个控制它们在长时间工作中可以记住的内容的上下文边界。
-
田远东谈:搜索质量就是动作空间质量
TLDR:更多 rollout 还不够。只有当动作空间、表示、评估器和记忆让好轨迹更容易被找到时,搜索才会真正变强。
-
Concordia:把 LLM 智能体作为社会模拟参与者
Concordia 很有用,因为它将 LLM 智能体视为具有记忆、角色、规范、部分观察和由游戏大师调节的世界状态的情境社会参与者。
-
Autocurricula and Multi-Agent Innovation: 社会互动如何生成新问题
TLDR:多智能体智能应该研究合作、竞争、专业化和共享发现如何创造孤立智能体会错过的能力。
-
Social Dilemmas: 三个经典社会困境
TLDR:社会困境表明为什么个人理性行为会损害群体结果,以及为什么合作取决于回报、重复、声誉和规范。
-
A Social Path to Human-Like AI: 社会互动如何生成新数据
TLDR:类人人工智能可能需要智能体群体通过社交互动进行学习,其中合作和竞争产生超出单智能体训练的 skill。