这节课讲奖励回报的逻辑和价值函数
1.1.2 奖励回报
强化学习的最终目标是让代理学会一个策略π(s,a)(policy),即从观察到行动的映射,使得代理能够在长期内最大化累积奖励。累积奖励通常定义为未来所有奖励的加权和。
在 MDP 中,总回报通常是折扣的,以确保未来奖励的重要性逐渐减少。这种折扣机制通过引入折扣因子 γ(0 ≤ γ ≤ 1)实现:
当γ=0 时,代理只关注当前奖励,忽略未来。
当γ=1 时,代理对当前和未来奖励同等重视。
在实践中,γ 通常接近 1(如 0.99),以平衡当前和未来的奖励。
总回报的公式如下:
对于无限时间步:
这可以写为期望形式:
其中 at=π(st) 是策略给出的动作,期望是对状态转移 st+1∼Pat(st,st+1) 取的。
对于有限时间步(如总共 H 步):
在有限情况下,每个奖励有相同的权重,更多用于学习理论场景。
1.1.3 价值函数
强化学习中价值函数其实有两种,状态价值函数和动作价值函数。
定义与作用:
状态价值函数 Vπ(s) 是指从某个状态 s 开始,代理按照策略 π 行动,未来能获得的期望总回报。它帮助我们了解某个状态有多“值钱”,比如在游戏中,某个位置是否靠近目标。 动作价值函数 Qπ(s,a) 是指从状态 s 开始,先采取动作 a ,然后继续遵循策略 π,能获得的期望总回报。它告诉我们,在某个状态下,某个具体动作值不值得做,比如在迷宫中,是向前走好还是转向好。
计算方式:
这两个函数都依赖于奖励的累积,通常用折扣因子γ (0到1之间)来减少未来奖励的重要性。
状态价值函数的计算涉及所有可能动作的加权平均,公式为:
表示从状态 s开始,遵循策略 π 后,代理所能获得的期望总回报。
动作价值函数的计算涉及所有可能动作的加权平均,公式为:
表示从状态 s 开始,首先采取动作 a 然后遵循策略 π ,代理所能获得的期望总回报。
状态价值函数衡量某个状态在长期策略下的“好坏”,动作价值函数则进一步考虑具体动作的影响。