马尔可夫决策过程
決策模型 / 维基百科,自由的 encyclopedia
在数学中,马尔可夫决策过程(英语:Markov decision process,MDP)是离散时间随机控制过程。 它提供了一个数学框架,用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态规划解决的优化问题很有用。 MDP至少早在1950年代就已为人所知;[1] 一个对马尔可夫决策过程的核心研究是 罗纳德·霍华德(英语:Ronald A. Howard)于1960年出版的《动态规划和马尔可夫过程》[2]。 它们被用于许多领域,包括机器人学,自动化,经济学和制造业。 MDP的名称来自俄罗斯数学家安德雷·马尔可夫,因为它们是马尔可夫链的推广。
在每个时间步骤中,随机过程都处于某种状态,决策者可以选择在状态下可用的动作。 该随机过程在下一时间步骤会随机进入新状态,并给予决策者相应的回馈。
随机过程进入新状态的概率受所选操作影响。 具体来说,它是由状态变换函数给出的。 因此,下一个状态取决于当前状态和决策者的动作。 但是给定和,它条件独立于所有先前的状态和动作; 换句话说,MDP的状态变换满足马尔可夫性质。
马尔可夫决策过程是马尔可夫链的推广,不同之处在于添加了行动(允许选择)和奖励(给予动机)。反过来说,如果每个状态只存在一个操作和所有的奖励都是一样的,一个马尔可夫决策过程可以归结为一个马尔可夫链。