草履虫也能学会的强化学习系列（2）

今天更新系列连载之（2）

马尔可夫决策

·马尔可夫决策过程（MDP）是一种数学模型，用于在结果不确定的情况下进行决策。

·它包括状态、动作、转移概率和奖励函数，目标是找到最大化累积奖励的政策。

· MDP广泛应用于强化学习、运筹学和人工智能领域。

马尔可夫决策过程（MDP）是一种用于建模决策问题的数学框架，尤其适用于结果不确定且依赖于决策者动作的情况。以下是其核心组成部分和目标：

MDP由以下元素组成：

状态S（States）：系统可能处于的所有情况或配置，例如在一个网格世界中，状态可以是代理所在的网格位置, S是状态空间，可能离散（如整数集）或连续（如实数集）。

动作A（Actions）：在每个状态下可用的选择，例如在网格世界中，动作可以是向上、向下、向左或向右移动。A是动作空间，可能在每个状态s下有不同的可用动作集合A_s。

转移概率P（Transition Probabilities）：描述当采取特定动作时，从一个状态转移到另一个状态的概率。例如，移动可能有80%的概率按预期方向移动，20%的概率偏离。P是转移概率函数，定义为P(s' | s, a)，表示在状态s下采取动作a后转移到状态s'的概率。

奖励函数R（Reward Function）：指定在特定状态下采取特定动作的即时奖励或成本，例如到达目标可能获得高奖励，撞到障碍物可能有负奖励。R是奖励函数，通常定义为R(s, a)，表示在状态s下采取动作a的即时奖励（或期望即时奖励）。

然而，在某些上下文中，奖励函数也可以定义为R(s, a, s')，表示从状态s通过动作a转移到s'后的奖励，这取决于具体问题设置。奖励函数可以灵活为R(s)、R(s, a)或R(s, a, s')，具体取决于问题需求。

草履虫也能学会的强化学习系列（2）_决策过程

最后一个概念Policy策略。

什么是策略？策略是马尔可夫决策过程的解决方案。策略是从状态 S 到行动 a 的映射。它指示在状态 S 时应该采取的行动 ‘a’。让我们以上图网格世界为例：

网格图像描述 - 假设您指的是一个 3x4 的网格，其中包含起始点 (Start)、钻石 (Diamond)、火焰 (Fire) 和阻塞 (Blocked) 格子

一个代理（皇冠）在这个网格w中移动。上面的例子是一个 3*4 的网格。网格有一个起始状态（START 状态，格子编号 1,1）。代理的目的是在网格中游走，最终到达蓝钻石（Blue Diamond，格子编号 4,3）。在任何情况下，代理都应该避开火焰格子（Fire grid，橙色，格子编号 4,2）。此外，格子编号 2,2 是一个阻塞格子，它像墙壁一样，因此代理无法进入。

代理可以采取以下任何一个行动：上 (UP)、下 (DOWN)、左 (LEFT)、右 (RIGHT)

墙壁会阻挡代理的路径，也就是说，如果在代理想要采取的方向上有墙壁，代理会停留在原地。例如，如果代理在起始状态 (START) 格子中选择“左 (LEFT)”，它将停留在起始状态 (START) 格子中。

首要目标：找到从起始状态 (START) 到钻石 (Diamond) 的最短路径序列。可以找到两个这样的序列：

右右上右上 (RIGHT RIGHT UP UPRIGHT)上上右右右 (UP UP RIGHT RIGHT RIGHT)为了后续讨论，我们选择第二个序列 (上上右右右 - UP UP RIGHT RIGHT RIGHT)。现在的移动是带噪声的。 80% 的情况下，预期的行动会正确执行。 20% 的情况下，代理采取的行动会导致它向直角方向移动。例如，如果代理选择“上 (UP)”，则向上移动的概率为 0.8，而向左移动的概率为 0.1，向右移动的概率为 0.1（因为左和右与上是直角方向）。

代理在每个时间步都会获得奖励。

每个步骤都有奖励（可以是负数，此时也可以称为惩罚，在上面的例子中，进入火焰格子可能会获得 -1 的奖励）

在代理在整个网格中运动的路径我们称为轨迹（τ）。

这个能获得奖励的方案，我们就称其为策略（Policy），经常被写作π(s,a)。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.tpcf.cn/bicheng/91758.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！