Yuandong Tian Talks:搜索空间、RSI 与 Metaproductivity
0. 一句话
搜索不是只靠更多 rollouts,关键是把 action space 表示成适合搜索的形状。
1. 搜索空间的形状
-
AlphaZero:棋盘规则天然给了很好的搜索空间,MCTS 很有效。
-
LaMCTS:很多现实优化问题没有天然好树结构,所以要学习 search space partition。
-
Learning Beyond Gradients:coding agent 在程序空间里搜索 heuristic;当程序空间不够表达任务时,就要升级抽象,比如宏动作、状态图、MPC、memory。
-
RSI:真正的自我改进系统不只是改答案,而是会改自己的搜索空间、评估器、程序结构和迭代方式。
2. 重点材料
Yuandong Tian 的 talks 页面收集了他近几年公开发表的 slides。这里最值得优先看的几份是:
3. Metaproductivity
这里的关键字段是 metaproductivity。Huxley-Gödel Machine 的核心洞见就是:一个 agent 当前 benchmark performance 高,不代表它有更好的后续自我改进潜力;他们称之为 Metaproductivity-Performance Mismatch,并用 descendant performance 的 clade-level 指标来指导 self-modification tree search。
4. 一个可记录的 context pattern
{
"type": "trace | failuremode | heuristic | controller | evaluator | environmentgenerator | test | negativeresult | abstraction | protocol",
"content": "自然语言、代码、prompt、测试、replay、state graph、controller 参数等",
"scope": "适用任务、状态区域、模型族、预算区间、不可用条件",
"evidence": "positive trials, negative trials, ablation, held-out transfer",
"lineage": "由哪些 agent、哪些 trajectory、哪些 previous CP 生成",
"fitness": {
"directgain": "...",
"costreduction": "...",
"transfer": "...",
"robustness": "...",
"metaproductivity": "...",
"diversityimpact": "...",
"safetyrisk": "..."
},
"status": "raw | candidate | validated | canonical | deprecated | distilled"
}
这个 schema 的重点是把一次 agent 轨迹中产生的经验,记录成可以被后续搜索、验证、废弃和蒸馏的对象。特别是 metaproductivity 字段,它记录的不是当前收益,而是这个对象是否提高了后续自我改进的能力。