分类: learning
-
Crafting Interpreters(II):树开始运行
AST 只有被解释器遍历后才会变成一次运行:表达式产生值,语句制造效果,环境保存状态,控制流选择子树,闭包保留被捕获的作用域。

-
Crafting Interpreters(I):当源码开始拥有结构
源码会分阶段变成可执行结构:扫描器先切出 token 边界,解析器再把优先级和结合性落实成 AST,后续阶段直接消费这棵保存下来的树。
-
Sutton RL:第 6 章 - 时间差分学习
TLDR:TD 通过引导当前值估计,将蒙特卡洛采样与动态编程式更新相结合,从部分经验中学习更新。
-
Sutton RL:第 5 章 - 蒙特卡罗方法
TLDR:蒙特卡罗方法从完整的采样片段中学习价值,用无模型的简单性来换取延迟更新和返回方差。
-
Sutton RL:第 2 天 多臂老虎机
TLDR:多臂老虎机通过消除状态转换并将动作价值估计作为中心来隔离探索/利用问题。
-
Sutton 强化学习:第 3 天 动态规划
动态规划是强化学习基于模型的起点:利用已知的 MDP 动力学,贝尔曼方程成为迭代值和策略更新规则。
-
Sutton RL:第 1 天 - RL 问题和 MDP 基础知识
TLDR:RL 是长期奖励的交互:政策选择行动,奖励提供反馈,价值估计未来回报,贝尔曼方程将各个部分连接起来。
-
Crafting Interpreters:第 2 章 地图全貌
TLDR:这一章画出从源码到解释器运行的路线图:扫描、解析、语义分析、代码生成和运行时选择各自解决不同问题。