分类: learning
-
Crafting Interpreters:第 3 章 Lox 语言
TLDR:Lox 是本书后面要实现的小语言:它有类、闭包和控制流,表达力够用,又足够小,可以在书里完整实现两遍。
-
Crafting Interpreters:第 4 章 扫描
扫描是解释器里的第一个结构边界:原始字符先变成 token,解析器才能处理语言单元,而不是一个个字节。
-
CS336:第 3 讲 LM 架构与超参数
TLDR:现代 LM 架构是一组工程权衡:归一化、激活函数、注意力、位置编码、超参数、稳定性和推理成本会互相牵制。
-
CS336:第 4 讲 Mixture of Experts
TLDR:MoE 通过稀疏专家路由扩大参数量,但真正的难点是平衡 token 负载、容量、通信成本和专家分工。
-
CS336:第 1 讲 把语言模型当作工程问题
TLDR:理解现代 LM,最好的办法仍然是自己搭一遍栈。分词、数据、算力和评估都不是干净抽象,而是会漏水的工程选择。
-
CS336:第 2 讲 PyTorch 与资源核算
第 2 讲是关于具体化训练成本:张量、数据类型、内存、FLOP、autograd、优化器、数据加载、检查点和混合精度都有资源价格。