← 全部文章

分类： reading

田远东谈：搜索质量就是动作空间质量
TLDR：更多 rollout 还不够。只有当动作空间、表示、评估器和记忆让好轨迹更容易被找到时，搜索才会真正变强。
1分钟阅读 · 2026年5月22日
2026 · search · research-methods · reading · research
压缩就是你所需要的：衡量数学进步
TLDR：数学抽象在压缩下游工作时很有价值：证明变得更短，重复的模式消失，并且库变得更容易扩展。
1分钟阅读 · 2026年5月21日
2026 · mathematical-progress · evaluation · reading · systems
启发式学习：用代码维护学习系统
TLDR：启发式学习将迭代智能体工作视为维护可验证的软件系统。反馈更新代码、测试、规则、状态表示和记忆，而不是神经网络权重。
1分钟阅读 · 2026年5月21日
2026 · heuristic-learning · learning-systems · reading · systems
自私的基因：第 3 章不朽的双螺旋
TLDR：持久单位不是身体，而是复制基因：身体消失，而遗传信息通过复制和重组不断竞争。
2分钟阅读 · 2026年5月19日
2026 · selfish-gene · reading
AMP：自动混合精度作为调度策略
TLDR：AMP 并不是“将模型变成半精度”。它是一种运行时策略，可以以较低的精度运行安全、高吞吐量的操作，同时保护数字敏感路径。
2分钟阅读 · 2026年5月18日
2026 · mixed-precision · gpu-systems · reading · systems
对话姚舜宇：反馈是 AI 研究的中心
TLDR：这次对话很有用，因为它将人工智能研究框架为系统驱动的实验工作：定义可验证的问题，建立反馈循环，仔细调试，并选择仍在塑造扩展路径的方向。
1分钟阅读 · 2026年5月14日
2026 · research-methods · agent-systems · reading · research
Anthropic 博客：harness 工程与上下文工程
这些 Anthropic 工程文章的共同教训是：长时间智能体任务往往在运行时层失败，必须认真设计上下文、评估、沙箱、权限、交接和反馈。
2分钟阅读 · 2026年5月13日
2026 · harness-engineering · context-engineering · reading · research
与智能体团队一起构建 C 编译器
C 编译器实验之所以成功，是因为该项目为智能体提供了合适的基础：模块化架构、客观测试、Git 作为共享内存、任务锁、可读日志以及将一个巨大目标变成许多局部失败的预言机。
2分钟阅读 · 2026年5月13日
2026 · compiler-agents · multi-agent-systems · reading · agents