部分観測マルコフ決定過程

→「マルコフ決定過程 § 定義」も参照

POMDP は、マルコフ決定過程に観測を表現するための要素を追加することで定義される^[1]。まず、マルコフ決定過程は次に挙げる 4 つの要素の組 $({\mathcal {S}},{\mathcal {A}},T,R)$ として定義される。

${\mathcal {S}}$ は環境のもつ状態 (state) の有限集合であり、状態空間 (state space) とも呼ばれる。
${\mathcal {A}}$ は意思決定者の取ることが出来る行動 (action) の有限集合である。
$T\colon {\mathcal {S}}\times {\mathcal {A}}\times {\mathcal {S}}\to [0,1]$ は状態遷移関数 (state transition function) と呼ばれ、ある行動のもとでの状態遷移確率 $T(s_{t},a_{t},s_{t+1})=\Pr(s_{t+1}\mid s_{t},a_{t})$ を定める。
$R\colon {\mathcal {S}}\times {\mathcal {A}}\to \mathbb {R}$ は報酬関数 (reward function) と呼ばれ、即時報酬の期待値 (expected immediate reward) $R(s_{t},a_{t})=\mathbb {E} [r_{t+1}\mid s_{t},a_{t}]$ を定める。

POMDP は、上に加えて次の 2 つを加えた 6 要素の組 $({\mathcal {S}},{\mathcal {A}},T,R,\Omega ,O)$ によって定義される。

$\Omega$ は意思決定者が環境から受け取る可能性のある観測 (observation) の有限集合である。
$O\colon {\mathcal {S}}\times {\mathcal {A}}\times \Omega \to [0,1]$ は観測の条件付き確率分布 $O(s_{t+1},a_{t},o_{t+1})=\Pr(o_{t+1}\mid s_{t+1},a_{t})$ を定める。

形式的には、POMDP は隠れマルコフモデルに行動、および（行動を変更する動機を与える）報酬を付与したものと解釈することができる。

信念状態

MDP とは異なり、POMDP による問題設定では環境の状態を直接取得することが出来ない。したがって、方策を定めるために意思決定者は自身が過去に取った行動および環境から受け取った観測の履歴をもとに状態を推定する必要がある。この状態の推定値は一般に状態空間 ${\mathcal {S}}$ 上の（主観）確率分布で記述され、信念状態 (belief state) と呼ばれる。具体的には、ある時刻 $t$ における信念状態 $b_{t}$ は、初期時点における信念の値 $b_{0}$ と過去の行動と観測の履歴 ${\mathcal {H}}$ が与えられたもとでの条件付き確率分布 ${\textstyle b_{t}(s)=\Pr(S_{t}=s\mid b_{0},{\mathcal {H}})}$ である。

信念の更新

モデルのマルコフ性により、信念状態は直前における値と、直近に取った行動と観測の値のみから修正することが出来る。いま、ある時刻 $t$ における信念状態 $b_{t}$ に対し意思決定者が行動 $a_{t}$ を選択し、その結果として観測値 $o_{t+1}$ が得られたとする。このとき、次ステップでの信念状態 $b_{t+1}(s_{t+1})$ の更新式は次のように記述される:

{\begin{aligned}b_{t+1}(s_{t+1})&={\frac {\Pr(o_{t+1}\mid b_{t},a_{t},s_{t+1})\times \Pr(s_{t+1}\mid b_{t},a_{t})}{\Pr(o_{t+1}\mid b_{t},a_{t})}}\\&=\eta \cdot O(s_{t+1},a_{t},o_{t+1})\sum _{s\in {\mathcal {S}}}T(s_{t},a_{t},s_{t+1})b_{t}(s_{t})\end{aligned}}

(1)

ここで $\eta =1/\Pr(o_{t+1}\mid a_{t},b_{t})$ は正規化定数である。確率 $\Pr(o_{t+1}\mid a_{t},b_{t})$ は次式で与えられる。 $\Pr(o_{t+1}\mid b_{t}a_{t})=\sum _{s'\in {\mathcal {S}}}O(s_{t+1},a_{t},o_{t+1})\sum _{s\in {\mathcal {S}}}T(s,a,s)b_{t}(s)$

Belief MDP の定式化

式 (1) は現在取る行動 $a_{t}$ と得られる観測 $o_{t+1}$ が既知の場合における信念状態 $b_{t}$ から $b_{t+1}$ への（決定論的な）遷移関係と解釈することが出来る。すなわち、信念状態を介することで POMDP を（部分観測でない）マルコフ決定過程として扱うことが出来る。このようにして構成される MDP のことを belief MDP と呼ぶ。形式的には、belief MDP は次の要素からなる組 $({\mathcal {B}},{\mathcal {A}},\tau ,r)$ として定義される:

${\textstyle {\mathcal {B}}=\{b\colon S\to [0,1]\mid \sum _{s\in {\mathcal {S}}}b(s)=1\}}$ : 信念状態が取り得る値の集合
${\mathcal {A}}$ : belief MDP における行動集合（元々の POMDP と共通）
$\tau \colon {\mathcal {B}}\times {\mathcal {A}}\times {\mathcal {B}}\to [0,1]$ : 信念状態空間における状態遷移確率
$r\colon {\mathcal {B}}\times {\mathcal {A}}\to \mathbb {R}$ : 信念状態空間における報酬関数

ここで $\tau$ および $r$ はそれぞれ次のように求められる。 ${\begin{aligned}\tau (b_{t},a_{t},b_{t+1})&=\sum _{o_{t+1}\in \Omega }\Pr(b_{t+1}\mid b_{t},a_{t},o_{t+1})\Pr(o_{t+1}\mid b_{t},a_{t})\\r(b_{t},a_{t})&=\sum _{s_{t}\in {\mathcal {S}}}b_{t}(s_{t})R(s_{t},a_{t})\\\end{aligned}}$ ただし、 $\Pr(b_{t+1}\mid b_{t},a_{t},o_{t+1})$ は $b_{t+1}$ が $b_{t},a_{t},o_{t+1}$ をもとに式 (1) によって得られる値の場合 1 を、それ以外のとき 0 を取るように定められる。

方策関数・価値関数

任意の信念 $b$ に対する特定の行動 $a=\pi (b)$ を $\pi$ と表す。ここで目的関数は無限ホライズンの期待割引報酬和 (expected total discounted reward) と仮定する。 $R$ がコストとして定義される場合、目的関数は期待コストの最小化となる。

信念の初期値を $b_{0}$ としたときの方策 $\pi$ に対する期待報酬 (expected reward) は次のように定義される: $V^{\pi }(b_{0})=\sum _{t=0}^{\infty }\gamma ^{t}r(b_{t},a_{t})=\sum _{t=0}^{\infty }\gamma ^{t}E{\Bigl [}R(s_{t},a_{t})\mid b_{0},\pi {\Bigr ]}$ ここで $\gamma <1$ は割引因子である。最適な方策 $\pi ^{*}$ は長期的な報酬の最適化により次のように得られる:

$\pi ^{*}={\underset {\pi }{\mbox{argmax}}}\ V^{\pi }(b_{0})$

ここで $b_{0}$ は初期信念である。

最適方策 (optimal policy) は $\pi ^{*}$ で表され、任意の信念状態において期待報酬の最大値（最適価値関数 (optimal value function) $V^{*}$ で表す）を与える。価値関数はベルマンの最適性方程式の解である:

$V^{*}(b)=\max _{a\in A}{\Bigl [}r(b,a)+\gamma \sum _{o\in \Omega }O(o\mid b,a)V^{*}(\tau (b,a,o)){\Bigr ]}$

有限ホライズンの POMDP では、最適な価値関数は凸な区分線形関数となる^[2] 。これは有限個のベクトルの集合で表現することが出来る。無限ホライズンでは、有限次元ベクトルを用いることで凸性を維持するよう任意に綿密に $V^{*}$ を近似することができる^[3]。

価値反復法は動的計画法を用いて、区分線形性と収束性は区分線形性と凸性を維持しながら、収束するまで価値関数の値を更新する。価値関数の値を更新することで、方策は改善される。もう一つの動的計画法に基づくテクニックは方策反復法と呼ばれ、これは方策を明示的に更新する^[4]^[5]。

部分観測マルコフ決定過程

定義

Belief MDP

信念状態

信念の更新

Belief MDP の定式化

方策関数・価値関数

POMDP の近似解法

POMDP の応用

参考文献

外部リンク

Wikiwand - on