对话姚舜宇：反馈是 AI 研究的中心

对话很长，但主线很简单：

AI research is becoming system-driven experimental science.

这并不意味着想法不再重要。这意味着想法越来越需要在数据、基础设施、评估、调试和长反馈循环中生存。如果系统无法判断其是否正常工作，那么美丽的故事是不够的。

从理论到反馈

一个有用的线索是弱反馈领域和强反馈领域之间的对比。

在实验缓慢、稀缺或以社会为媒介的领域，品味和内部共识可以在很长一段时间内占据主导地位。在 AI 中，反馈并不完美，但通常要快得多。您可以运行实验、检查故障、更改数据、调整评估并从结果中学习。

这种速度是吸引力的一部分。它还改变了研究人员的概况。有价值的研究者不仅仅是拥有聪明想法的人。能够使想法变得可测试的人。

为什么编码提前转移

编码是最早获得广泛应用的 AI 原生 app 之一，因为它具有异常良好的反馈：

代码可以被执行；
可以运行测试；
可以审查差异；
故障可以重现；
任务可以分解为具体产物。

这并不会让编码变得容易。它使反馈循环清晰可见。

许多较困难的领域，例如机器人、产品品味、个性化或长期智能体，反馈较弱。奖励是延迟的、模糊的，或者与环境纠缠在一起的。那里的进展取决于建立更好的评估循环，而不仅仅是更大的模型。

单人英雄事迹的终结

另一个重要线索是前沿 AI 研究已经变得更加组织化。

变形金刚时代的突破仍然为个人品味和判断留下了空间，但现代前沿系统取决于：

数据管道；
训练基础设施；
评估套件；
调试文化；
产品反馈；
安全性和可靠性流程； ——分工明确。

个体研究人员仍然很重要，但更像是一个在大型系统中冲浪的人，而不是独自创造整个浪潮的人。

这不是一个浪漫的观点，但却很有用。如果该领域是系统驱动的，那么可靠、仔细且能够闭环就成为研究优势。## 年轻研究人员应该培养什么

我从谈话中得到的实用建议不是“追逐最热门的模特方向”。就是建立将模糊问题转化为实验系统的能力。

有用的问题包括：

What exactly is the task?
Where does the data come from?
What feedback signal is trustworthy?
What would count as failure?
Can the first experiment run this week?
How will I know whether a result is real or a bug?
What should be automated, and what still needs judgment?

这不像命名一个新范式那么迷人，但这就是研究的复合方式。

将 AI 作为研究的一部分

下一个转变是 AI 将越来越多地帮助 AI 研究本身：编码、阅读、实验设置、调试、结果分析、假设生成和文献搜索。

重要的区别在于使用 AI 和与 AI 协作之间。合作意味着研究者仍然拥有问题框架、证据标准和最终判断。模型可以加速工作，但它也应该用作受控循环内的批评者、助手和执行者。

对于长期工作，这又成为一个系统问题。研究人员需要工具、内存、评估和审查点，以便 AI 帮助改善研究循环，而不是增加不可信的输出。

机会依然存在

对话还警告不要假设主要语言模型轨道是唯一的工作场所。

有些方向拥挤且资源密集。其他的定义不明确但可能很重要：

长期智能体；
可靠的工具使用；
个人记忆；
科学 AI；
机器人技术和接地交互；
多模式生成和理解；
机器学习编码和自动化实验。

有吸引力的方向不一定是最响亮的方向。这是可以建立和扩展反馈的地方。

我的收获

最深刻的教训是现代 AI 研究奖励反馈纪律。

优秀的研究人员仍然需要品味、勇气和理论。但日常优势可能来自于一些不那么引人注目的事情：使问题可衡量、构建干净的循环、诚实地调试、良好地使用 AI 以及对结果负责。