TLDR:MoE 通过稀疏专家路由扩大参数量,但真正的难点是平衡 token 负载、容量、通信成本和专家分工。
26分钟阅读 · 2026年5月22日
2026 · cs336 · moe · learning · systems