马尔可夫决策过程 - Wikiwand
For faster navigation, this Iframe is preloading the Wikiwand page for 马尔可夫决策过程.

马尔可夫决策过程

维基百科,自由的百科全书

概率论统计学中,马尔可夫决策过程(英语:Markov Decision Processes,缩写为MDPs)提供了一个数学架构模型,用于面对部分随机,部分可由决策者控制的状态下,如何进行决策,以俄罗斯数学家安德雷·马尔可夫的名字命名。

在经由动态规划强化学习以解决最优化问题的研究领域中,马尔可夫决策过程是一个有用的工具。

马尔可夫过程在概率论和统计学方面皆有影响。一个通过不相关的自变量定义的随机过程,并(从数学上)体现出马尔可夫性质,以具有此性质为依据可推断出任何马尔可夫过程。实际应用中更为重要的是,使用具有马尔可夫性质这个假设来建立模型。在建模领域,具有马尔可夫性质的假设是向随机过程模型中引入统计相关性的同时,当分支增多时,允许相关性下降的少有几种简单的方式。

参见

参考文献

  • Yosida, K. “Functional Analysis”, Ch XIII, § 3, Springer-Verlag, 1968. ISBN 3-540-58654-7
  • Ribarič.M. and I.Vidav, “An inequality for concave functions.” Glasnik Matematički 8 (28), 183–186 (1973).

外部链接

{{bottomLinkPreText}} {{bottomLinkText}}
马尔可夫决策过程
Listen to this article