标签文章 cs336
-
CS336:第 3 讲 LM 架构与超参数
TLDR:现代 LM 架构是一组工程权衡:归一化、激活函数、注意力、位置编码、超参数、稳定性和推理成本会互相牵制。
-
CS336:第 4 讲 Mixture of Experts
TLDR:MoE 通过稀疏专家路由扩大参数量,但真正的难点是平衡 token 负载、容量、通信成本和专家分工。
-
CS336:第 1 讲 把语言模型当作工程问题
TLDR:理解现代 LM,最好的办法仍然是自己搭一遍栈。分词、数据、算力和评估都不是干净抽象,而是会漏水的工程选择。
-
CS336:第 2 讲 PyTorch 与资源核算
第 2 讲是关于具体化训练成本:张量、数据类型、内存、FLOP、autograd、优化器、数据加载、检查点和混合精度都有资源价格。