分类: systems
-
Crafting Interpreters:第 4 章 扫描
扫描是解释器里的第一个结构边界:原始字符先变成 token,解析器才能处理语言单元,而不是一个个字节。
-
CS336:第 3 讲 LM 架构与超参数
TLDR:现代 LM 架构是一组工程权衡:归一化、激活函数、注意力、位置编码、超参数、稳定性和推理成本会互相牵制。
-
CS336:第 4 讲 Mixture of Experts
TLDR:MoE 通过稀疏专家路由扩大参数量,但真正的难点是平衡 token 负载、容量、通信成本和专家分工。
-
压缩就是你所需要的:衡量数学进步
TLDR:数学抽象在压缩下游工作时很有价值:证明变得更短,重复的模式消失,并且库变得更容易扩展。
-
启发式学习:用代码维护学习系统
TLDR:启发式学习将迭代智能体工作视为维护可验证的软件系统。反馈更新代码、测试、规则、状态表示和记忆,而不是神经网络权重。
-
CS336:第 1 讲 把语言模型当作工程问题
TLDR:理解现代 LM,最好的办法仍然是自己搭一遍栈。分词、数据、算力和评估都不是干净抽象,而是会漏水的工程选择。
-
CS336:第 2 讲 PyTorch 与资源核算
第 2 讲是关于具体化训练成本:张量、数据类型、内存、FLOP、autograd、优化器、数据加载、检查点和混合精度都有资源价格。
-
AMP:自动混合精度作为调度策略
TLDR:AMP 并不是“将模型变成半精度”。它是一种运行时策略,可以以较低的精度运行安全、高吞吐量的操作,同时保护数字敏感路径。