マルコフ決定過程

マルコフ決定過程（マルコフけっていかてい、英: Markov decision process; MDP）は、状態遷移が確率的に生じる動的システム（確率システム）の確率モデルであり、状態遷移がマルコフ性を満たすものをいう。 MDP は不確実性を伴う意思決定のモデリングにおける数学的枠組みとして、強化学習など動的計画法が適用される幅広い最適化問題の研究に活用されている。 MDP は少なくとも1950年代には知られていた^[1]が、研究の中核は1960年に出版された Ronald A. Howard の "Dynamic Programming and Markov Processes" に起因する^[2]。 MDP はロボット工学や自動制御、経済学、製造業を含む幅広い分野で用いられている。

マルコフ決定過程は離散時間における確率制御過程 (stochastic control process) である。各時刻において過程 (process) はある状態 (state) を取り、意思決定者 (decision maker) はその状態において利用可能な行動 (action) を任意に選択する。その後過程はランダムに新しい状態へと遷移し、その際に意思決定者は状態遷移に対応した報酬 (reward) を受けとる。

遷移後の状態 $s'$ 、および得られる報酬の値 $r$ は現在の状態 $s$ と行動 $a$ のみに依存し、 $s$ と $a$ が与えられたもとでそれより過去の状態および行動と条件付き独立となる。言い換えると、マルコフ決定過程の状態遷移はマルコフ性を満たす。

マルコフ決定過程はマルコフ連鎖に（選択可能な）行動、および（行動を計画する動機を与える）報酬を追加し拡張したものであると解釈できる。逆に言えば、各ステップにとる行動がそのステップにおける状態のみ依存するとき、マルコフ決定過程は等価なマルコフ連鎖に置き換えることが出来る。

有限マルコフ決定過程 (finite Markov decision process; finite MDP) は4つの要素の組 ${\textstyle {\big \langle }S,A,T,R{\big \rangle }}$ で表される。ここで各要素はそれぞれ次を意味する。

$S=\{s^{1},s^{2},\ldots ,s^{N}\}$ : 状態の有限集合
$A=\{a^{1},a^{2},\ldots ,a^{K}\}$ : 行動の有限集合
$T:S\times A\times S\to [0,1]$ : 遷移関数 (transition function)
$R:S\times A\times S\to \mathbb {R}$ : 報酬関数 (reward function)

遷移関数 $T(s,a,s')$ は状態 $s$ にあり行動 $a$ を取ったときの状態 $s'$ への状態遷移確率 $T(s,a,s')=\Pr(s_{t+1}=s'|s_{t}=s,a_{t}=a)$ である。また報酬関数 $R(s,a,s')$ は状態 $s$ から $s'$ に行動 $a$ を伴い遷移する際に得られる即時報酬 (immediate reward) 、またはその期待値 $\mathbb {E} [r_{t+1}|s,a,s']$ を表す。

MDP における基本的な問題設定は、現在の状態が $s$ が与えられたときに意思決定者の取る行動 $a\in A$ を既定する方策 (policy) を求めることである。方策は通常 $s,a$ の条件付き分布 $P(a|s)$ として規定され、状態 $s$ に行動 $a$ を取る確率を $\pi (s,a)$ と表記する。

方策を求める際に用いられるゴール（目的関数）は、典型的には現在時刻から無限区間先の未来までにおける「割引された」報酬の累積値が用いられる:

$\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}\quad {\text{where}}\ a_{t}=\pi (s_{t})$

ここで $\gamma \in [0,1]$ は割引率 (discount rate) と呼ばれる値であり、現在の報酬と未来の報酬との間における重要度 (importance) の差異を表している。状態が確率的に遷移することから上の値は確率変数となるため、通常はその期待値が用いられる。

MDP は線形計画法または動的計画法で解くことができる。ここでは後者によるアプローチを示す．

いま，ある（定常な）方策 $\pi$ を採用した場合における割引報酬和 ${\textstyle V^{\pi }(s)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}\ |s_{0}=s]}$ は現在の状態 $s$ のみに依存し、これを 状態価値関数 (state-value function) と呼ぶ（ $\mathbb {E} _{\pi }[\cdot ]$ は方策 $\pi$ の下での条件付き期待値）。この状態価値関数 $V^{\pi }(s)$ は次式を満たす。 ${\begin{aligned}V^{\pi }(s)&=\sum _{a\in A}\pi (s,a)\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\\&=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')\end{aligned}}$ ただし ${\textstyle R^{\pi }(s)=\sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')R(s,a,s')}$ は状態 $s$ において方策 $\pi$ を採用した場合における即時報酬の期待値である。

任意の $\pi '$ および $s\in S$ に対し $V^{\pi ^{*}}(s)\geq V^{\pi '}(s)$ を満たす方策 $\pi ^{*}$ を最適方策 (optimal policy) と呼ぶ。 $\pi ^{*}$ を採用したときの状態価値関数の最大値 $V^{*}(s)=\max _{\pi }V^{\pi }(s)$ は次のベルマン方程式を満たす^[3]．

$V^{*}(s)=\max _{a\in A}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{*}(s'){\Big )}$

価値反復法

価値反復法 (value iteration)^[1]は後ろ向き帰納法 (backward induction) とも呼ばれ、ベルマン方程式を満たす価値関数を繰り返し計算により求める。ロイド・シャープレーが1953年に発表した確率ゲーム（英語版）に関する論文^[4]には価値反復法の特殊な場合が含まれるが、このことが認知されたのは後になってからである^[5]．

ステップ $i$ における価値関数の計算結果を $V_{i}(s)$ と表記すると、価値反復法における更新式はつぎのように記述される: $V_{i+1}(s)\leftarrow \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V_{i}(s'){\Big )}\quad \forall s\in S$

上式をすべての状態において値が収束するまで繰り返したときの値を $V^{\infty }(s)$ とし、最適方策 $\pi ^{*}$ を次式で求める。

$\pi ^{*}(s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\infty }(s'){\Big )}\quad \forall s\in S$

方策反復法

方策反復法 (policy iteration)^[2]では、方策固定の下で行われる価値関数の更新 (policy evaluation) と、価値関数固定のもとで行われる方策の更新 (policy improvement) を交互に行うことで最適方策を求める。

次の線形方程式を解き、価値関数を更新する
$V^{\pi }(s)=R^{\pi }(s)+\gamma \sum _{a\in A}\sum _{s'\in S}\pi (s,a)T(s,a,s')V^{\pi }(s')$
方策を次式で更新する
$\pi (s)\leftarrow \arg \max _{a\in A_{s}}\sum _{s'\in S}T(s,a,s'){\Big (}R(s,a,s')+\gamma V^{\pi }(s'){\Big )}\quad \forall s\in S$

これらの操作を $\pi$ がすべての状態に対し変化しなくなるまで繰り返すことで、最適方策を得る。方策反復法は離散値を取る方策の値が変化しなくなるという明確な終了条件を持つため有限時間でアルゴリズムが終了するという利点を持つ。

部分観測マルコフ決定過程

「部分観測マルコフ決定過程」も参照

MDP では方策 $\pi (s)$ を計算する際に現在の状態 $s$ が既知であることを仮定している。実際には状態観測に不確実性が伴う場合などこの仮定が成り立たない場合が多く、このような場合の一般化として部分観測マルコフ決定過程 (Partially Observable Markov Decision Process; POMDP) が用いられる。

強化学習

「強化学習」および「Q学習」も参照

状態遷移確率 $T(s,a,s')$ や報酬関数 $R(s,a,s')$ が未知の場合，環境との相互作用を通じてこれらの情報を得ながら行動を決定する必要がしばしば生じる．このような問題は強化学習の枠組みで議論される^[6]．

強化学習における代表的な学習アルゴリズムはQ学習と呼ばれるものである。 Q学習では、行動価値関数 (action-value function) と呼ばれる関数 $Q^{\pi }(s,a)$ に着目する。ここで $Q^{\pi }(s,a)$ は次のように定義される: $Q^{\pi }(s,a)=\mathbb {E} _{\pi }[\sum _{t=0}^{\infty }\gamma ^{t}r_{t+1}|s_{0}=s,a_{0}=a]$

いま，最適方策のもとでの行動価値関数 $Q^{*}(s,a)=\max _{\pi }Q^{\pi }(s,a)$ は $V^{*}(s)=\max _{a}Q^{*}(s,a)$ を満たす。すなわち、 $Q^{*}$ を学習することができれば（モデルのパラメータを直接求めることなく）最適方策を獲得することができる。 Q学習では、各試行における遷移前後の状態と入力、および試行で得られる即時報酬の実現値をもとに $Q(s,a)$ の値を逐次更新する。実際の学習プロセスでは、すべての状態を十分サンプリングするため確率的なゆらぎを含むよう学習時の行動が選択される。

強化学習では最適化に必要なパラメータの学習を状態遷移確率・報酬関数を介することなくおこなうことが出来る（価値反復法や方策反復法ではそれらの明示的な仕様（各状態間の遷移可能性，報酬関数の関数形など）を与える必要がある）。状態数（および行動の選択肢）が膨大な場合、強化学習はしばしばニューラルネットワークなどの関数近似と組み合わせられる。

学習オートマトン

機械学習理論における MDP のもう一つの応用は学習オートマトン (Learning Automata) と呼ばれる。これは環境が確率的な挙動を示す場合における強化学習の一つでもある。学習オートマトンに関する最初の詳細な論文は 1974 年に Narendra と Thathachar によりまとめられた^[7]（そこでは有限状態オートマトンと明示的に記載されている）。強化学習と同様，学習オートマトンのアルゴリズムも確率や報酬が未知の場合の問題を解くことができる。 Q学習の違いは，価値関数ではく学習の結果を探すために行動の確率を直接求めることである。学習オートマトンは収束性が解析学の要領で厳密に証明されている^[8]．

制約付きマルコフ決定過程

制約付きマルコフ決定過程 (Constrained Markov Decision Process; CMDP) はマルコフ決定過程の拡張である。 MDP と CMDP には3つの基本的な違いがある^[9]:

ある行動をほかのものの代わりに適用した後で（複数の）コストが発生する
CMDP は線形計画法のみで解くことが出来る（動的計画法を用いることはできない）
終端時刻における方策が初期状態に依存する

CMDP の応用例は数多く存在し、最近ではロボット工学におけるモーションプランニングに用いられている^[10]。

Bellman, R. (1957). “A Markovian Decision Process”. Journal of Mathematics and Mechanics 6.
Howard, Ronald. A. (1960). Dynamic Programming and Markov Processes. The M.I.T. Press
Shapley, Lloyd. (1953). “Stochastic Games”. Proceedings of National Academy of Science 39: 1095–1100.
Kallenberg, Lodewijk. (2002). “Finite state and action MDPs”. Handbook of Markov decision processes: methods and applications. Springer. ISBN 0-7923-7459-2
Sutton, R. S.; Barto, A. G. (1998). Reinforcement Learning: An Introduction. Cambridge, MA: The MIT Press
Narendra, K. S.; Thathachar, M. A. L. (1974). “Learning Automata - A Survey”. IEEE Transactions on Systems, Man, and Cybernetics SMC-4 (4): 323–334. doi:10.1109/TSMC.1974.5408453. ISSN 0018-9472.
Narendra, Kumpati S.; Thathachar, Mandayam A. L. (1989). Learning automata: An introduction. Prentice Hall. ISBN 9780134855585
Altman, Eitan (1999). Constrained Markov decision processes. 7. CRC Press
Feyzabadi, S.; Carpin, S. (2014). "Risk-aware path planning using hierarchical constrained Markov Decision Processes". Automation Science and Engineering (CASE). IEEE International Conference. pp. 297, 303. doi:10.1109/CoASE.2014.6899341。
木村, 元 (2013). “《第1回》強化学習の基礎”. 計測と制御 (計測自動制御学会) 52 (1): 72-77. NAID 10031140795. https://doi.org/10.11499/sicejl.52.72.

Reinforcement Learning An Introduction by Richard S. Sutton and Andrew G. Barto
Learning to Solve Markovian Decision Processes by Satinder P. Singh
Optimal Adaptive Policies for Markov Decision Processes by Burnetas and Katehakis (1997)
ソフトウェアパッケージ
- MDP Toolbox for MATLAB, GNU Octave, Scilab and R The Markov Decision Processes (MDP) Toolbox.
- MDP Toolbox for Matlab - An excellent tutorial and Matlab toolbox for working with MDPs.
- MDP Toolbox for Python A package for solving MDPs
- SPUDD A structured MDP solver for download by Jesse Hoey

この項目は、コンピュータに関連した書きかけの項目です。この項目を加筆・訂正などしてくださる協力者を求めています（PJ:コンピュータ/P:コンピュータ）。

[FOOTNOTEBellman1957-1] [1]
Bellman 1957.

[FOOTNOTEHoward1960-2] [2]
Howard 1960.

[FOOTNOTESuton1998-3] [3]
Suton 1998.

[FOOTNOTEShapley1953-4] [4]
Shapley 1953.

[FOOTNOTEKallenberg2002-5] [5]
Kallenberg 2002.

[FOOTNOTESuttonBarto1998-6] [6]
Sutton & Barto 1998.

[FOOTNOTENarendraThathachar1974-7] [7]
Narendra & Thathachar 1974.

[FOOTNOTENarendraThathachar1989-8] [8]
Narendra & Thathachar 1989.

[FOOTNOTEAltman1999-9] [9]
Altman 1999.

[FOOTNOTEFeyzabadiCarpin2014-10] [10]
Feyzabadi & Carpin 2014.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]