标签文章 rl

Sutton RL：第 6 章 - 时间差分学习
TLDR：TD 通过引导当前值估计，将蒙特卡洛采样与动态编程式更新相结合，从部分经验中学习更新。
10分钟阅读 · 2026年5月30日
2026 · sutton-rl · rl · learning
Sutton RL：第 5 章 - 蒙特卡罗方法
TLDR：蒙特卡罗方法从完整的采样片段中学习价值，用无模型的简单性来换取延迟更新和返回方差。
7分钟阅读 · 2026年5月29日
2026 · sutton-rl · rl · learning
Sutton RL：第 2 天多臂老虎机
TLDR：多臂老虎机通过消除状态转换并将动作价值估计作为中心来隔离探索/利用问题。
6分钟阅读 · 2026年5月28日
2026 · sutton-rl · rl · learning
Sutton 强化学习：第 3 天动态规划
动态规划是强化学习基于模型的起点：利用已知的 MDP 动力学，贝尔曼方程成为迭代值和策略更新规则。
4分钟阅读 · 2026年5月28日
2026 · sutton-rl · rl · learning
Sutton RL：第 1 天 - RL 问题和 MDP 基础知识
TLDR：RL 是长期奖励的交互：政策选择行动，奖励提供反馈，价值估计未来回报，贝尔曼方程将各个部分连接起来。
7分钟阅读 · 2026年5月27日
2026 · sutton-rl · rl · learning