← 全部文章

分类： systems

Crafting Interpreters：第 4 章扫描
扫描是解释器里的第一个结构边界：原始字符先变成 token，解析器才能处理语言单元，而不是一个个字节。
3分钟阅读 · 2026年5月25日
2026 · crafting-interpreters · interpreters · scanning · learning · systems
CS336：第 3 讲 LM 架构与超参数
TLDR：现代 LM 架构是一组工程权衡：归一化、激活函数、注意力、位置编码、超参数、稳定性和推理成本会互相牵制。
18分钟阅读 · 2026年5月22日
2026 · cs336 · lm-architecture · learning · systems
CS336：第 4 讲 Mixture of Experts
TLDR：MoE 通过稀疏专家路由扩大参数量，但真正的难点是平衡 token 负载、容量、通信成本和专家分工。
26分钟阅读 · 2026年5月22日
2026 · cs336 · moe · learning · systems
压缩就是你所需要的：衡量数学进步
TLDR：数学抽象在压缩下游工作时很有价值：证明变得更短，重复的模式消失，并且库变得更容易扩展。
1分钟阅读 · 2026年5月21日
2026 · mathematical-progress · evaluation · reading · systems
启发式学习：用代码维护学习系统
TLDR：启发式学习将迭代智能体工作视为维护可验证的软件系统。反馈更新代码、测试、规则、状态表示和记忆，而不是神经网络权重。
1分钟阅读 · 2026年5月21日
2026 · heuristic-learning · learning-systems · reading · systems
CS336：第 1 讲把语言模型当作工程问题
TLDR：理解现代 LM，最好的办法仍然是自己搭一遍栈。分词、数据、算力和评估都不是干净抽象，而是会漏水的工程选择。
1分钟阅读 · 2026年5月18日
2026 · cs336 · language-modeling · learning · systems
CS336：第 2 讲 PyTorch 与资源核算
第 2 讲是关于具体化训练成本：张量、数据类型、内存、FLOP、autograd、优化器、数据加载、检查点和混合精度都有资源价格。
4分钟阅读 · 2026年5月18日
2026 · cs336 · resource-accounting · learning · systems
AMP：自动混合精度作为调度策略
TLDR：AMP 并不是“将模型变成半精度”。它是一种运行时策略，可以以较低的精度运行安全、高吞吐量的操作，同时保护数字敏感路径。
2分钟阅读 · 2026年5月18日
2026 · mixed-precision · gpu-systems · reading · systems