RLM:递归语言模型
核心判断
这是一篇有真洞察的系统论文,但主张有点过。它的价值不在“递归”这个词,而在于把长上下文从 Transformer token 序列里拿出来,变成可以用代码检索、切片、调用和验证的外部对象。最危险的问题是:论文证明了强模型放在好 scaffolding 里可以赢不少基准,但还没证明这套机制已经是稳定、通用、可控的“新范式”。

1. 动机:痛点确实存在,但作者夸大了范围
这篇文章要解决的不是普通的“上下文窗口不够长”。问题更尖锐:即使模型的物理窗口足够大,有效注意力、信息保真度和长输入上的组合推理仍然会衰减。作者把它称为 context rot:上下文变长时,GPT-5 这类前沿模型也会退化。同时,许多真正的长上下文任务需要处理数百万甚至数千万个 token,而不只是从几个段落里找一根针。 (arXiv)
这个痛点是真实存在的,尤其是在 OOLONG 这类几乎每一行都要用上的任务里。作者还明确区分了简单的 NIAH 和信息密集型任务:NIAH 里答案大小不随输入增长,而 OOLONG / OOLONG-Pairs 里的处理量会随输入线性甚至二次增长。这个区别击中了许多长上下文论文的弱点:证明模型能找到目标,不等于证明它理解长文档。 (arXiv)
但这里也有包装。“任意长 prompt”更像营销话术,不是机制本身。RLM 并没有给神经网络真正无限的上下文,它只是把瓶颈从模型上下文窗口转移到外部环境、代码执行、子调用成本、搜索策略和 RAM。它解决的是可编程访问的长输入,不是任意长输入。
2. 贡献:核心不是递归,而是 prompt-as-environment
如果我只能保留一项贡献,我会保留这一贡献:提示被视为外部环境变量,而不是直接输入到模型上下文中的东西。这是这篇文章中最简洁、最可移植的想法。 RLM 将长提示放入 Python REPL 内的 context 变量中,让模型使用代码来检查、拆分、过滤和调用子 LM,然后将本地结果拼接回最终答案。 (arXiv)
当然,“递归调用 LM”很重要,但这不是第一性原理的贡献。证据表明,无子调用消融仍然跨越了模型上下文限制,并且在 Qwen3-Coder 的 CodeQA 和 BrowseComp+ 上,它甚至击败了完整的 RLM。完整的 RLM 仅在 OOLONG / OOLONG-Pairs 等信息密集型任务上打开了明显差距,其中系统需要大量语义转换和聚合。 (arXiv)
所以这篇论文的贡献应该更名为:外部记忆语言模型推理,而不是递归语言模型。递归只是外部环境中的一种操作。
3. 方法:把长上下文问题改写成外部内存问题
这个方法的关键见解是:不要强迫模型立刻“读完”整个长输入,而是让模型像程序一样管理输入访问路径。作者借鉴了核外算法:当小而快的主内存无法处理大型数据集时,答案不是简单扩大主内存,而是安排好数据移动。对 LLM 来说,对应做法不是把整个 prompt 塞进 Transformer,而是让模型决定看哪里、如何切片,以及哪些片段应该交给子 LM。 (arXiv)
这比摘要/压缩更强,因为摘要假设早期细节可以被压缩或忘记。在信息密集的任务中,这些细节可能不是一次性的。 RLM 可以将原始输入保留在外部环境中,并且仅在需要时检索本地片段。它也比普通的递归智能体更强,因为许多递归智能体可以递归地分解任务,但原始输入仍然必须首先适合模型窗口。 RLM 将输入本身置于外部环境中,因此递归发生在可编程片上。 (arXiv)
但这种见解也揭示了这个方法真正依赖的是什么。 RLM 不会自动理解长上下文。它依赖于模型编写代码、进行启发式搜索和构造子问题。这篇论文自己的轨迹分析表明,模型经常使用正则表达式、关键字和先验知识来缩小搜索空间。这很强大,但也意味着当先验薄弱、措辞对抗性或数据分布不均时,系统可能会系统性地错过证据。 (arXiv)
4. 结果:最有力的证据是信息密集型任务,不是 10M token 本身
有两个结果最能支撑论文主张。第一,BrowseComp+ 在 6M-11M token 上:由于上下文限制,GPT-5 base 为 0,而 RLM(GPT-5) 达到 91.33,明显领先 Summary agent 的 70.47 和 CodeAct+BM25 的 51.00。这个结果说明 RLM 确实可以把任务扩展到普通上下文之外。 (arXiv)
第二个结果更关键:OOLONG-Pairs。输入只有 32K token,理论上放得进上下文,但 GPT-5 base 几乎为 0,Summary agent 也几乎为 0,RLM(GPT-5) 达到 58.00。这个结果比“它可以处理 10M token”更有说服力,因为它说明问题不只是窗口长度,而是长输入内部的复合计算结构。 (arXiv)
这些结果不仅仅是漂亮的数字。作者包括基本模型、摘要基线、检索/代码智能体、无子调用消融以及围绕恒定、线性和二次信息密度设计的任务。这样证据链相对完整。 (arXiv)
但仍不能完全证明这个方法“普遍有效”。 OOLONG-Pairs 由 20 个手动修改的查询组成,因此其外部有效性受到限制。 BrowseComp+优势很强,但无子调用已经接近完整的 RLM,这意味着在某些任务中核心机制不是递归,而是基于 REPL 的外部访问。成本故事也并不干净。论文本身承认 RLM 具有长尾、高方差轨迹,其中有许多异常值,这些异常值比基本查询要昂贵得多。 (arXiv)
5. 局限:弱点是机制不稳定,不是实验不够
真正的弱点是:RLM 目前更像一个脆弱的智能体 scaffolding,依赖强模型行为,而不是稳定算法。附录相当坦诚。同一个 prompt 可能跨模型失效;Qwen3-Coder 需要额外提示来避免过多递归调用;小模型很难用,因为编码能力不够;thinking token 不足可能中断轨迹;用于分隔最终答案和中间思考的 FINAL 标签也很脆弱。 (arXiv)
更严重的是,作者观察到 RLM 轨迹经常做出非最优决策。 Qwen3-Coder 可能会在简单任务上启动数百或数千个递归子调用,而 GPT-5 只能进行十几个左右。模型也可能构建出正确的答案,然后放弃它,浪费更多的调用,甚至选择错误的最终答案。 (arXiv)
这个弱点是否推翻了核心结论?它并没有推翻提示即环境有价值的结论,但它确实削弱了 RLM 是一种通用、廉价、稳定的推理策略这一更大的主张。目前的证据表明,与此更接近的是:当根模型足够强大、可以编写代码、任务是可分解的、并且搜索策略恰好起作用时,RLM 就非常强大。它还没有证明它可以预测、可审计并且可以安全地部署在真正的开放式长期任务上。
最后三句话
- 这篇论文最值得学习的地方,是把长上下文从“扩大 Transformer 窗口”重构为“外部环境中的可编程数据访问”。这是有迁移价值的系统洞察。
- 最可疑的地方,是把强 prompt + REPL + 子模型调用这一套智能体 scaffolding 包装成“通用推理范式”。当前机制显然依赖模型行为、提示细节和任务可分解性。
- 它指向的未来研究方向不是继续堆更长上下文,而是训练模型规划阅读、验证证据、控制递归成本,并通过外部记忆做可靠推理。