馬可夫決策過程

在數學中，馬可夫決策過程（英語：Markov decision process，MDP）是離散時間隨機控制過程。它提供了一個數學框架，用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知；^[1] 一個對馬可夫決策過程的核心研究是羅納德·霍華德（英語：Ronald A. Howard）於1960年出版的《動態規劃和馬可夫過程》^[2]。它們被用於許多領域，包括機械人學，自動化，經濟學和製造業。 MDP的名稱來自俄羅斯數學家安德雷·馬可夫，因為它們是馬可夫鏈的推廣。

在每個時間步驟中，隨機過程都處於某種狀態 $s$ ，決策者可以選擇在狀態 $s$ 下可用的動作 $a$ 。該隨機過程在下一時間步驟會隨機進入新狀態 $s'$ ，並給予決策者相應的回饋 $R_{a}(s,s')$ 。

隨機過程進入新狀態 $s'$ 的概率受所選操作影響。具體來說，它是由狀態轉換函數 $P_{a}(s,s')$ 給出的。因此，下一個狀態 $s'$ 取決於當前狀態 $s$ 和決策者的動作 $a$ 。但是給定 $s$ 和 $a$ ，它條件獨立於所有先前的狀態和動作；換句話說，MDP的狀態轉換滿足馬可夫性質。

馬可夫決策過程是馬可夫鏈的推廣，不同之處在於添加了行動（允許選擇）和獎勵（給予動機）。反過來說，如果每個狀態只存在一個操作和所有的獎勵都是一樣的，一個馬可夫決策過程可以歸結為一個馬可夫鏈。

[1]

[2]