← 全部文章

分类： learning

Crafting Interpreters（II）：树开始运行
AST 只有被解释器遍历后才会变成一次运行：表达式产生值，语句制造效果，环境保存状态，控制流选择子树，闭包保留被捕获的作用域。
12分钟阅读 · 2026年6月30日
2026 · crafting-interpreters · interpreters · lox · learning · systems
Crafting Interpreters（I）：当源码开始拥有结构
源码会分阶段变成可执行结构：扫描器先切出 token 边界，解析器再把优先级和结合性落实成 AST，后续阶段直接消费这棵保存下来的树。
7分钟阅读 · 2026年6月24日
2026 · crafting-interpreters · interpreters · parsing · learning · systems
Sutton RL：第 6 章 - 时间差分学习
TLDR：TD 通过引导当前值估计，将蒙特卡洛采样与动态编程式更新相结合，从部分经验中学习更新。
10分钟阅读 · 2026年5月30日
2026 · sutton-rl · rl · learning
Sutton RL：第 5 章 - 蒙特卡罗方法
TLDR：蒙特卡罗方法从完整的采样片段中学习价值，用无模型的简单性来换取延迟更新和返回方差。
7分钟阅读 · 2026年5月29日
2026 · sutton-rl · rl · learning
Sutton RL：第 2 天多臂老虎机
TLDR：多臂老虎机通过消除状态转换并将动作价值估计作为中心来隔离探索/利用问题。
6分钟阅读 · 2026年5月28日
2026 · sutton-rl · rl · learning
Sutton 强化学习：第 3 天动态规划
动态规划是强化学习基于模型的起点：利用已知的 MDP 动力学，贝尔曼方程成为迭代值和策略更新规则。
4分钟阅读 · 2026年5月28日
2026 · sutton-rl · rl · learning
Sutton RL：第 1 天 - RL 问题和 MDP 基础知识
TLDR：RL 是长期奖励的交互：政策选择行动，奖励提供反馈，价值估计未来回报，贝尔曼方程将各个部分连接起来。
7分钟阅读 · 2026年5月27日
2026 · sutton-rl · rl · learning
Crafting Interpreters：第 2 章地图全貌
TLDR：这一章画出从源码到解释器运行的路线图：扫描、解析、语义分析、代码生成和运行时选择各自解决不同问题。
4分钟阅读 · 2026年5月25日
2026 · crafting-interpreters · interpreters · learning · systems