馬可夫決策過程
決策模型 / 維基百科,自由的 encyclopedia
在數學中,馬可夫決策過程(英語:Markov decision process,MDP)是離散時間隨機控制過程。 它提供了一個數學框架,用於在結果部分隨機且部分受決策者控制的情況下對決策建模。 MDP對於研究通過動態規劃解決的最佳化問題很有用。 MDP至少早在1950年代就已為人所知;[1] 一個對馬可夫決策過程的核心研究是 羅納德·霍華德(英語:Ronald A. Howard)於1960年出版的《動態規劃和馬可夫過程》[2]。 它們被用於許多領域,包括機械人學,自動化,經濟學和製造業。 MDP的名稱來自俄羅斯數學家安德雷·馬可夫,因為它們是馬可夫鏈的推廣。
在每個時間步驟中,隨機過程都處於某種狀態,決策者可以選擇在狀態下可用的動作。 該隨機過程在下一時間步驟會隨機進入新狀態,並給予決策者相應的回饋。
隨機過程進入新狀態的概率受所選操作影響。 具體來說,它是由狀態轉換函數給出的。 因此,下一個狀態取決於當前狀態和決策者的動作。 但是給定和,它條件獨立於所有先前的狀態和動作; 換句話說,MDP的狀態轉換滿足馬可夫性質。
馬可夫決策過程是馬可夫鏈的推廣,不同之處在於添加了行動(允許選擇)和獎勵(給予動機)。反過來說,如果每個狀態只存在一個操作和所有的獎勵都是一樣的,一個馬可夫決策過程可以歸結為一個馬可夫鏈。