← 全部文章

分类： learning

Crafting Interpreters：第 3 章 Lox 语言
TLDR：Lox 是本书后面要实现的小语言：它有类、闭包和控制流，表达力够用，又足够小，可以在书里完整实现两遍。
9分钟阅读 · 2026年5月25日
2026 · crafting-interpreters · interpreters · lox · learning · systems
Crafting Interpreters：第 4 章扫描
扫描是解释器里的第一个结构边界：原始字符先变成 token，解析器才能处理语言单元，而不是一个个字节。
3分钟阅读 · 2026年5月25日
2026 · crafting-interpreters · interpreters · scanning · learning · systems
CS336：第 3 讲 LM 架构与超参数
TLDR：现代 LM 架构是一组工程权衡：归一化、激活函数、注意力、位置编码、超参数、稳定性和推理成本会互相牵制。
18分钟阅读 · 2026年5月22日
2026 · cs336 · lm-architecture · learning · systems
CS336：第 4 讲 Mixture of Experts
TLDR：MoE 通过稀疏专家路由扩大参数量，但真正的难点是平衡 token 负载、容量、通信成本和专家分工。
26分钟阅读 · 2026年5月22日
2026 · cs336 · moe · learning · systems
CS336：第 1 讲把语言模型当作工程问题
TLDR：理解现代 LM，最好的办法仍然是自己搭一遍栈。分词、数据、算力和评估都不是干净抽象，而是会漏水的工程选择。
1分钟阅读 · 2026年5月18日
2026 · cs336 · language-modeling · learning · systems
CS336：第 2 讲 PyTorch 与资源核算
第 2 讲是关于具体化训练成本：张量、数据类型、内存、FLOP、autograd、优化器、数据加载、检查点和混合精度都有资源价格。
4分钟阅读 · 2026年5月18日
2026 · cs336 · resource-accounting · learning · systems

分类： learning

Crafting Interpreters：第 3 章 Lox 语言

Crafting Interpreters：第 4 章 扫描

CS336：第 3 讲 LM 架构与超参数

CS336：第 4 讲 Mixture of Experts

CS336：第 1 讲 把语言模型当作工程问题

CS336：第 2 讲 PyTorch 与资源核算

Crafting Interpreters：第 4 章扫描

CS336：第 1 讲把语言模型当作工程问题