标签文章 rl
-
Sutton RL:第 6 章 - 时间差分学习
TLDR:TD 通过引导当前值估计,将蒙特卡洛采样与动态编程式更新相结合,从部分经验中学习更新。
-
Sutton RL:第 5 章 - 蒙特卡罗方法
TLDR:蒙特卡罗方法从完整的采样片段中学习价值,用无模型的简单性来换取延迟更新和返回方差。
-
Sutton RL:第 2 天 多臂老虎机
TLDR:多臂老虎机通过消除状态转换并将动作价值估计作为中心来隔离探索/利用问题。
-
Sutton 强化学习:第 3 天 动态规划
动态规划是强化学习基于模型的起点:利用已知的 MDP 动力学,贝尔曼方程成为迭代值和策略更新规则。
-
Sutton RL:第 1 天 - RL 问题和 MDP 基础知识
TLDR:RL 是长期奖励的交互:政策选择行动,奖励提供反馈,价值估计未来回报,贝尔曼方程将各个部分连接起来。