马尔可夫决策过程

在数学中，马尔可夫决策过程（英语：Markov decision process，MDP）是离散时间随机控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态规划解决的优化问题很有用。 MDP至少早在1950年代就已为人所知；^[1] 一个对马尔可夫决策过程的核心研究是罗纳德·霍华德（英语：Ronald A. Howard）于1960年出版的《动态规划和马尔可夫过程》^[2]。它们被用于许多领域，包括机器人学，自动化，经济学和制造业。 MDP的名称来自俄罗斯数学家安德雷·马尔可夫，因为它们是马尔可夫链的推广。

在每个时间步骤中，随机过程都处于某种状态 $s$ ，决策者可以选择在状态 $s$ 下可用的动作 $a$ 。该随机过程在下一时间步骤会随机进入新状态 $s'$ ，并给予决策者相应的回馈 $R_{a}(s,s')$ 。

随机过程进入新状态 $s'$ 的概率受所选操作影响。具体来说，它是由状态变换函数 $P_{a}(s,s')$ 给出的。因此，下一个状态 $s'$ 取决于当前状态 $s$ 和决策者的动作 $a$ 。但是给定 $s$ 和 $a$ ，它条件独立于所有先前的状态和动作；换句话说，MDP的状态变换满足马尔可夫性质。

马尔可夫决策过程是马尔可夫链的推广，不同之处在于添加了行动（允许选择）和奖励（给予动机）。反过来说，如果每个状态只存在一个操作和所有的奖励都是一样的，一个马尔可夫决策过程可以归结为一个马尔可夫链。

[1]

[2]