这节课讲奖励回报的逻辑和价值函数


1.1.2 奖励回报

强化学习的最终目标是让代理学会一个策略π(s,a)(policy),即从观察到行动的映射,使得代理能够在长期内最大化累积奖励。累积奖励通常定义为未来所有奖励的加权和。

在 MDP 中,总回报通常是折扣的,以确保未来奖励的重要性逐渐减少。这种折扣机制通过引入折扣因子 γ(0 ≤ γ ≤ 1)实现:

当γ=0 时,代理只关注当前奖励,忽略未来。

当γ=1 时,代理对当前和未来奖励同等重视。

在实践中,γ 通常接近 1(如 0.99),以平衡当前和未来的奖励。

总回报的公式如下:

对于无限时间步:

草履虫也能学会的强化学习系列(3)_状态转移


这可以写为期望形式:

草履虫也能学会的强化学习系列(3)_强化学习_02


其中 at=π(st) 是策略给出的动作,期望是对状态转移 st+1∼Pat(st,st+1) 取的。

对于有限时间步(如总共 H 步):

草履虫也能学会的强化学习系列(3)_权重_03


在有限情况下,每个奖励有相同的权重,更多用于学习理论场景。

1.1.3 价值函数

强化学习中价值函数其实有两种,状态价值函数和动作价值函数。

定义与作用:

状态价值函数 Vπ(s) 是指从某个状态 s 开始,代理按照策略 π 行动,未来能获得的期望总回报。它帮助我们了解某个状态有多“值钱”,比如在游戏中,某个位置是否靠近目标。    动作价值函数 Qπ(s,a) 是指从状态 s 开始,先采取动作 a  ,然后继续遵循策略 π,能获得的期望总回报。它告诉我们,在某个状态下,某个具体动作值不值得做,比如在迷宫中,是向前走好还是转向好。

计算方式:

这两个函数都依赖于奖励的累积,通常用折扣因子γ (0到1之间)来减少未来奖励的重要性。

状态价值函数的计算涉及所有可能动作的加权平均,公式为: 


草履虫也能学会的强化学习系列(3)_权重_04

表示从状态 s开始,遵循策略 π 后,代理所能获得的期望总回报。

动作价值函数的计算涉及所有可能动作的加权平均,公式为:

草履虫也能学会的强化学习系列(3)_强化学习_05


表示从状态 s 开始,首先采取动作 a 然后遵循策略 π ,代理所能获得的期望总回报。

状态价值函数衡量某个状态在长期策略下的“好坏”,动作价值函数则进一步考虑具体动作的影响。