トップQs
タイムライン
チャット
視点
部分観測マルコフ決定過程
マルコフ決定過程を一般化したもの ウィキペディアから
Remove ads
部分観測マルコフ決定過程(ぶぶんかんそくマルコフけっていかてい、英: partially observable Markov decision process; POMDP)はマルコフ決定過程 (MDP) の一般化であり、状態を直接観測できないような意思決定過程におけるモデル化の枠組みを与える。
POMDP は実世界におけるあらゆる逐次的な意思決定過程をモデル化するのに十分であり、ロボットのナビゲーションや機械整備 (machine maintenance)、および不確実な状況下でのプランニングなどに応用されている。 POMDP はオペレーションズリサーチを起源とし、のちに人工知能や自動計画のコミュニティに引き継がれた。
定義
要約
視点
→「マルコフ決定過程 § 定義」も参照
POMDP は、マルコフ決定過程に観測を表現するための要素を追加することで定義される[1]。 まず、マルコフ決定過程は次に挙げる 4 つの要素の組 として定義される。
- は環境のもつ状態 (state) の有限集合であり、状態空間 (state space) とも呼ばれる。
- は意思決定者の取ることが出来る行動 (action) の有限集合である。
- は状態遷移関数 (state transition function) と呼ばれ、ある行動のもとでの状態遷移確率 を定める。
- は報酬関数 (reward function) と呼ばれ、即時報酬の期待値 (expected immediate reward) を定める。
POMDP は、上に加えて次の 2 つを加えた 6 要素の組 によって定義される。
- は意思決定者が環境から受け取る可能性のある観測 (observation) の有限集合である。
- は観測の条件付き確率分布 を定める。
形式的には、POMDP は隠れマルコフモデルに行動、および(行動を変更する動機を与える)報酬を付与したものと解釈することができる。
Remove ads
Belief MDP
信念状態
MDP とは異なり、POMDP による問題設定では環境の状態を直接取得することが出来ない。 したがって、方策を定めるために意思決定者は自身が過去に取った行動および環境から受け取った観測の履歴をもとに状態を推定する必要がある。 この状態の推定値は一般に状態空間 上の(主観)確率分布で記述され、信念状態 (belief state) と呼ばれる。 具体的には、ある時刻 における信念状態 は、初期時点における信念の値 と過去の行動と観測の履歴 が与えられたもとでの条件付き確率分布 である。
信念の更新
モデルのマルコフ性により、信念状態は直前における値と、直近に取った行動と観測の値のみから修正することが出来る。 いま、ある時刻 における信念状態 に対し意思決定者が行動 を選択し、その結果として観測値 が得られたとする。 このとき、次ステップでの信念状態 の更新式は次のように記述される:
(1)
ここで は正規化定数である。確率 は次式で与えられる。
Belief MDP の定式化
式 (1) は現在取る行動 と得られる観測 が既知の場合における信念状態 から への(決定論的な)遷移関係と解釈することが出来る。 すなわち、信念状態を介することで POMDP を(部分観測でない)マルコフ決定過程として扱うことが出来る。 このようにして構成される MDP のことを belief MDP と呼ぶ。 形式的には、belief MDP は次の要素からなる組 として定義される:
- : 信念状態が取り得る値の集合
- : belief MDP における行動集合(元々の POMDP と共通)
- : 信念状態空間における状態遷移確率
- : 信念状態空間における報酬関数
ここで および はそれぞれ次のように求められる。 ただし、 は が をもとに式 (1) によって得られる値の場合 1 を、それ以外のとき 0 を取るように定められる。
方策関数・価値関数
任意の信念 に対する特定の行動 を と表す。 ここで目的関数は無限ホライズンの期待割引報酬和 (expected total discounted reward) と仮定する。 がコストとして定義される場合、目的関数は期待コストの最小化となる。
信念の初期値を としたときの方策 に対する期待報酬 (expected reward) は次のように定義される: ここで は割引因子である。 最適な方策 は長期的な報酬の最適化により次のように得られる:
ここで は初期信念である。
最適方策 (optimal policy) は で表され、任意の信念状態において期待報酬の最大値(最適価値関数 (optimal value function) で表す)を与える。 価値関数はベルマンの最適性方程式の解である:
有限ホライズンの POMDP では、最適な価値関数は凸な区分線形関数となる[2] 。 これは有限個のベクトルの集合で表現することが出来る。 無限ホライズンでは、有限次元ベクトルを用いることで凸性を維持するよう任意に綿密に を近似することができる[3]。
価値反復法は動的計画法を用いて、区分線形性と収束性は区分線形性と凸性を維持しながら、収束するまで価値関数の値を更新する。 価値関数の値を更新することで、方策は改善される。 もう一つの動的計画法に基づくテクニックは方策反復法と呼ばれ、これは方策を明示的に更新する[4][5]。
Remove ads
POMDP の近似解法
組み合わせ爆発の問題をはらむため、POMDP の厳密解を求めることは実用上困難であることが多い。 そのため、POMDP の解を近似する手法が複数提案されている[6]。 グリッドベースのアルゴリズム[7]では価値関数を信念空間内の点集合として計算し、最適行動を決定するための計算など、グリッドの点集合に含まれない信念状態の値が必要な場合は補完する。 より最近の研究では、サンプリングや一般化 (genelization technique)、および問題の構造を利用する手法などが用いられ、膨大な状態を伴うより大きい領域を扱うよう POMDP を拡張する[8][9]。 例えば、点ベースの手法では、信念空間において関連する領域への計画を拘束するため、到達可能な信念をランダムにサンプルする[10]。 主成分分析を用いた次元削減も調べられている[11]。
POMDP の応用
POMDP は実世界の多くの種類の問題に用いることが出来る。 注目すべき応用には、虚血性心疾患の患者の特別療法に対する POMDP の活用[12]、痴呆患者の支援技術[9]、 絶滅の危機に瀕し発見の難しいスマトラトラの保護[13]、および航空機の衝突回避が含まれる[14]。
参考文献
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads