博客

2026

启发式学习：用代码维护学习系统
TLDR：启发式学习将迭代智能体工作视为维护可验证的软件系统。反馈更新代码、测试、规则、状态表示和记忆，而不是神经网络权重。
1分钟阅读 · 2026年5月21日
2026 · heuristic-learning · learning-systems · reading · systems
自私的基因：第 3 章不朽的双螺旋
TLDR：持久单位不是身体，而是复制基因：身体消失，而遗传信息通过复制和重组不断竞争。
2分钟阅读 · 2026年5月19日
2026 · selfish-gene · reading
CS336：第 1 讲把语言模型当作工程问题
TLDR：理解现代 LM，最好的办法仍然是自己搭一遍栈。分词、数据、算力和评估都不是干净抽象，而是会漏水的工程选择。
1分钟阅读 · 2026年5月18日
2026 · cs336 · language-modeling · learning · systems
CS336：第 2 讲 PyTorch 与资源核算
第 2 讲是关于具体化训练成本：张量、数据类型、内存、FLOP、autograd、优化器、数据加载、检查点和混合精度都有资源价格。
4分钟阅读 · 2026年5月18日
2026 · cs336 · resource-accounting · learning · systems
AMP：自动混合精度作为调度策略
TLDR：AMP 并不是“将模型变成半精度”。它是一种运行时策略，可以以较低的精度运行安全、高吞吐量的操作，同时保护数字敏感路径。
2分钟阅读 · 2026年5月18日
2026 · mixed-precision · gpu-systems · reading · systems
Autocurricula and Multi-Agent Innovation: 社会互动如何生成新问题
TLDR：多智能体智能应该研究合作、竞争、专业化和共享发现如何创造孤立智能体会错过的能力。
2分钟阅读 · 2026年5月16日
2026 · leibo · multi-agent-systems · agents · research
Social Dilemmas: 三个经典社会困境
TLDR：社会困境表明为什么个人理性行为会损害群体结果，以及为什么合作取决于回报、重复、声誉和规范。
2分钟阅读 · 2026年5月16日
2026 · leibo · social-dilemmas · agents · research
A Social Path to Human-Like AI: 社会互动如何生成新数据
TLDR：类人人工智能可能需要智能体群体通过社交互动进行学习，其中合作和竞争产生超出单智能体训练的 skill。
3分钟阅读 · 2026年5月16日
2026 · leibo · social-ai · agents · research