今天更新系列连载之(2)
马尔可夫决策
·马尔可夫决策过程(MDP)是一种数学模型,用于在结果不确定的情况下进行决策。
·它包括状态、动作、转移概率和奖励函数,目标是找到最大化累积奖励的政策。
· MDP广泛应用于强化学习、运筹学和人工智能领域。
马尔可夫决策过程(MDP)是一种用于建模决策问题的数学框架,尤其适用于结果不确定且依赖于决策者动作的情况。以下是其核心组成部分和目标:
MDP由以下元素组成:
状态S(States):系统可能处于的所有情况或配置,例如在一个网格世界中,状态可以是代理所在的网格位置, S是状态空间,可能离散(如整数集)或连续(如实数集)。
动作A(Actions):在每个状态下可用的选择,例如在网格世界中,动作可以是向上、向下、向左或向右移动。A是动作空间,可能在每个状态s下有不同的可用动作集合A_s。
转移概率P(Transition Probabilities):描述当采取特定动作时,从一个状态转移到另一个状态的概率。例如,移动可能有80%的概率按预期方向移动,20%的概率偏离。P是转移概率函数,定义为P(s' | s, a),表示在状态s下采取动作a后转移到状态s'的概率。
奖励函数R(Reward Function):指定在特定状态下采取特定动作的即时奖励或成本,例如到达目标可能获得高奖励,撞到障碍物可能有负奖励。R是奖励函数,通常定义为R(s, a),表示在状态s下采取动作a的即时奖励(或期望即时奖励)。
然而,在某些上下文中,奖励函数也可以定义为R(s, a, s'),表示从状态s通过动作a转移到s'后的奖励,这取决于具体问题设置。奖励函数可以灵活为R(s)、R(s, a)或R(s, a, s'),具体取决于问题需求。
最后一个概念Policy策略。
什么是策略?策略是马尔可夫决策过程的解决方案。策略是从状态 S 到行动 a 的映射。 它指示在状态 S 时应该采取的行动 ‘a’。让我们以上图网格世界为例:
网格图像描述 - 假设您指的是一个 3x4 的网格,其中包含起始点 (Start)、钻石 (Diamond)、火焰 (Fire) 和阻塞 (Blocked) 格子
一个代理(皇冠)在这个网格w中移动。 上面的例子是一个 3*4 的网格。 网格有一个起始状态(START 状态,格子编号 1,1)。 代理的目的是在网格中游走,最终到达蓝钻石(Blue Diamond,格子编号 4,3)。 在任何情况下,代理都应该避开火焰格子(Fire grid,橙色,格子编号 4,2)。 此外,格子编号 2,2 是一个阻塞格子,它像墙壁一样,因此代理无法进入。
代理可以采取以下任何一个行动:上 (UP)、下 (DOWN)、左 (LEFT)、右 (RIGHT)
墙壁会阻挡代理的路径,也就是说,如果在代理想要采取的方向上有墙壁,代理会停留在原地。例如,如果代理在起始状态 (START) 格子中选择“左 (LEFT)”,它将停留在起始状态 (START) 格子中。
首要目标:找到从起始状态 (START) 到钻石 (Diamond) 的最短路径序列。 可以找到两个这样的序列:
右右上右上 (RIGHT RIGHT UP UPRIGHT)上上右右右 (UP UP RIGHT RIGHT RIGHT)为了后续讨论,我们选择第二个序列 (上 上 右 右 右 - UP UP RIGHT RIGHT RIGHT)。现在的移动是带噪声的。 80% 的情况下,预期的行动会正确执行。 20% 的情况下,代理采取的行动会导致它向直角方向移动。 例如,如果代理选择“上 (UP)”,则向上移动的概率为 0.8,而向左移动的概率为 0.1,向右移动的概率为 0.1(因为左和右与上是直角方向)。
代理在每个时间步都会获得奖励。
每个步骤都有奖励(可以是负数,此时也可以称为惩罚,在上面的例子中,进入火焰格子可能会获得 -1 的奖励)
在代理在整个网格中运动的路径我们称为轨迹(τ)。
这个能获得奖励的方案,我们就称其为策略(Policy),经常被写作π(s,a)。