Talk with Shunyu Yao：AI 研究的反馈、系统与长期方向

一、访谈内容与主线

这期访谈的对象是姚顺宇，清华本科、斯坦福博士，原本从事理论物理研究，方向包括非厄米系统、量子物理与高能物理；之后转入 AI，曾在 Anthropic 和 Google DeepMind 做研究科学家，参与过 Claude 3.7、Claude 4.5、Gemini 3 等模型相关工作。这期节目时长接近 4 小时，主线并不是单纯讲某个模型或某家公司，而是通过他个人从物理到 AI、从 Anthropic 到 Google DeepMind 的经历，讨论当下前沿 AI 研究的技术、组织和人才逻辑。

访谈前半部分主要围绕几个判断展开：第一，pre-training 并没有明显到头，至少从前沿实验室的体感看，模型能力仍在持续提升；第二，coding 是 AI-native 场景里最早真正跑通的大规模应用之一，因为它有清晰数据、清晰反馈和较强可验证性；第三，机器人、多模态生成等方向虽然很重要，但还没有像语言模型那样找到稳定 scale 的路径。姚顺宇反复强调，很多所谓“范式撞墙”，可能并不是理论极限，而是实验、数据、工程或 bug 没做好。

中段比较有价值的是他对科研迁移的反思。他从物理训练中带走的不是具体技术，而是“把事情想清楚、深度阅读、不要过分相信纯理论”的习惯。他也提到，高能物理的问题在于实验反馈太弱，评价标准容易变成小圈子内部判断；而 AI 的吸引力在于它有更强的实验性和客观反馈，能通过实验迅速检验想法。

后半段的核心，是他对 AI 研究组织形态的判断：语言模型领域的“个人英雄主义”时代已经过去。Transformer 之后，前沿模型越来越依赖大型工程系统、清晰分工、稳定 infra、数据 pipeline、评估体系和组织协作。个人当然仍重要，但更像是站在浪上的冲浪者，而不是单独制造浪的人。访谈中他明确把 Google 的进步归因于组织逻辑逐渐清晰、预训练流程工程化，以及大规模系统能力发挥作用。

最后，他对年轻研究者的建议很值得重视：纯语言模型方向已经不再是早期蓝海，但 AI 仍然很大，多模态、机器人、AI for science、long horizon、ML coding 等方向仍有大量未解决问题。对足够年轻的研究者而言，一味追逐最热方向未必是最优选择，反而应寻找那些尚未被充分定义、但一旦 scale 起来会产生巨大影响的方向。

二、对当下 AI 研究者的核心启发

这次访谈最重要的 takeaway 是：今天的 AI 研究正在从“idea-driven science”转向“system-driven experimental science”。过去一个研究者可能靠一个漂亮理论、一个新结构、一个巧妙 loss 就能获得巨大影响；但在当前前沿模型阶段，真正决定研究质量的，越来越是能否把问题变成可验证任务，能否构造高质量数据和评估信号，能否快速迭代实验，能否发现系统里的真实瓶颈，而不是被 benchmark 或漂亮叙事误导。

因此，对 AI 研究者来说，“聪明”不再是最稀缺的品质。更稀缺的是靠谱、细致、能闭环、能 debug、能对结果负责。姚顺宇在访谈中甚至说，AI 这个行业最重要的特质不是玄学式天才，而是“靠谱、做事细、对自己做的事情负责任”；这句话听起来很反直觉，但对研究训练非常关键。

另一个重要启发是：研究者要重视“反馈信号”。Coding 之所以率先爆发，不只是因为代码数据多，而是因为它天然可执行、可测试、可评价。相反，产品审美、机器人泛化、复杂 agent 行为等问题更难，是因为反馈更稀疏、更模糊、更长链条。未来优秀研究者的能力，可能很大程度体现在能否为复杂问题设计出好的 feedback loop。

第三，AI 研究者需要主动适应“AI 加速 AI 研究”的时代。访谈中提到 ML coding 和 long horizon 是下一阶段关键方向之一，因为它们有可能让 AI 参与代码编写、实验运行、结果分析、假设生成和新实验设计，逐步形成自动化研究闭环。这意味着研究者的核心能力会从“亲手完成每个步骤”，转向“定义问题、设计系统、判断结果、组织人和 AI 协作”。

三、对研究者发展的建议

第一，训练自己提出“可实验化问题”的能力。不要只问“这个方向有没有前途”，而要问：我能不能把它变成一个明确任务？数据从哪里来？评估指标是否可靠？失败后如何定位原因？能否在一周内得到第一轮反馈？这类问题比宏大判断更重要。

第二，把数据、评估和 debug 当作研究能力的一部分。很多研究者喜欢模型结构和方法创新，但前沿 AI 里，大量进步来自数据分布、训练细节、评估设计和 bug 修复。一个能稳定发现问题、修复 pipeline、解释实验异常的人，长期价值会高于只会提出抽象 idea 的人。

第三，学会和 AI 协作，而不是仅仅“使用 AI”。访谈中提到的 24 小时 RL 项目面试，本质是在考察候选人是否能借助 AI 快速完成从选题、实现、实验到讨论的闭环，而不是把任务完全丢给 AI。未来研究者要会把 AI 当作代码助手、实验助手、阅读助手和反驳者，但最终判断仍必须由自己承担。

第四，不要迷信热门赛道。纯 LLM 主干模型研究已经高度集中，资源门槛极高，个人或小团队很难正面对抗大实验室。但这不意味着机会消失，而是机会转移到了更具体、更真实、更难被 benchmark 简化的问题上，例如长时程 agent、可靠工具使用、个性化记忆、科学实验自动化、机器人泛化、AI for domain science 等。

第五，建立“系统视角”。当下 AI 研究已经不是单点算法竞赛，而是模型、数据、算力、产品、组织和评估共同作用的复杂系统。研究者如果只看 paper，容易低估工程组织；如果只看产品，又容易低估底层技术。更好的路径是同时理解技术细节与系统约束，知道自己的工作如何嵌入更大的研究闭环。

四、最终 takeaway

这期访谈对研究者最大的提醒是：AI 前沿研究正在变得更工程化、更系统化，也更依赖客观反馈。未来优秀研究者不一定是最会讲宏大概念的人，而是能把模糊问题拆成可验证实验、把 AI 工具纳入研究流程、持续迭代并对结果负责的人。对年轻研究者而言，与其追逐已经拥挤的主航道，不如寻找那些反馈尚未建立、scale 路径尚未清晰、但一旦跑通就会打开新空间的问题。

一、访谈内容与主线

二、对当下 AI 研究者的核心启发

三、对研究者发展的建议

四、最终 takeaway

Enjoy Reading This Article?