草履虫也能学会的强化学习系列（3）

这节课讲奖励回报的逻辑和价值函数

1.1.2 奖励回报

强化学习的最终目标是让代理学会一个策略π(s,a)（policy），即从观察到行动的映射，使得代理能够在长期内最大化累积奖励。累积奖励通常定义为未来所有奖励的加权和。

在 MDP 中，总回报通常是折扣的，以确保未来奖励的重要性逐渐减少。这种折扣机制通过引入折扣因子 γ（0 ≤ γ ≤ 1）实现：

当γ=0 时，代理只关注当前奖励，忽略未来。

当γ=1 时，代理对当前和未来奖励同等重视。

在实践中，γ 通常接近 1（如 0.99），以平衡当前和未来的奖励。

总回报的公式如下：

对于无限时间步：

草履虫也能学会的强化学习系列（3）_强化学习

这可以写为期望形式：

草履虫也能学会的强化学习系列（3）_强化学习_02

其中 at=π(st) 是策略给出的动作，期望是对状态转移 st+1∼Pat(st,st+1) 取的。

对于有限时间步（如总共 H 步）：

草履虫也能学会的强化学习系列（3）_状态转移_03

在有限情况下，每个奖励有相同的权重，更多用于学习理论场景。

1.1.3 价值函数

强化学习中价值函数其实有两种，状态价值函数和动作价值函数。

定义与作用：

状态价值函数 Vπ(s) 是指从某个状态 s 开始，代理按照策略 π 行动，未来能获得的期望总回报。它帮助我们了解某个状态有多“值钱”，比如在游戏中，某个位置是否靠近目标。动作价值函数 Qπ(s,a) 是指从状态 s 开始，先采取动作 a ，然后继续遵循策略 π，能获得的期望总回报。它告诉我们，在某个状态下，某个具体动作值不值得做，比如在迷宫中，是向前走好还是转向好。

计算方式：

这两个函数都依赖于奖励的累积，通常用折扣因子γ （0到1之间）来减少未来奖励的重要性。

状态价值函数的计算涉及所有可能动作的加权平均，公式为：

草履虫也能学会的强化学习系列（3）_强化学习_04