分类: reading
-
田远东谈:搜索质量就是动作空间质量
TLDR:更多 rollout 还不够。只有当动作空间、表示、评估器和记忆让好轨迹更容易被找到时,搜索才会真正变强。
-
压缩就是你所需要的:衡量数学进步
TLDR:数学抽象在压缩下游工作时很有价值:证明变得更短,重复的模式消失,并且库变得更容易扩展。
-
启发式学习:用代码维护学习系统
TLDR:启发式学习将迭代智能体工作视为维护可验证的软件系统。反馈更新代码、测试、规则、状态表示和记忆,而不是神经网络权重。
-
自私的基因:第 3 章 不朽的双螺旋
TLDR:持久单位不是身体,而是复制基因:身体消失,而遗传信息通过复制和重组不断竞争。
-
AMP:自动混合精度作为调度策略
TLDR:AMP 并不是“将模型变成半精度”。它是一种运行时策略,可以以较低的精度运行安全、高吞吐量的操作,同时保护数字敏感路径。
-
对话姚舜宇:反馈是 AI 研究的中心
TLDR:这次对话很有用,因为它将人工智能研究框架为系统驱动的实验工作:定义可验证的问题,建立反馈循环,仔细调试,并选择仍在塑造扩展路径的方向。
-
Anthropic 博客:harness 工程与上下文工程
这些 Anthropic 工程文章的共同教训是:长时间智能体任务往往在运行时层失败,必须认真设计上下文、评估、沙箱、权限、交接和反馈。
-
与智能体团队一起构建 C 编译器
C 编译器实验之所以成功,是因为该项目为智能体提供了合适的基础:模块化架构、客观测试、Git 作为共享内存、任务锁、可读日志以及将一个巨大目标变成许多局部失败的预言机。