SARSA算法

SARSA算法是機器學習領域的一種強化學習算法，得名於「狀態-動作-獎勵-狀態-動作」（State–Action–Reward–State–Action）的英文首字母縮寫。

SARSA算法最早是由G.A. Rummery, M. Niranjan在1994年提出的，當時稱為「改進型聯結主義Q學習」（Modified Connectionist Q-Learning）。^[1]理查德·S·薩頓提出了使用替代名SARSA。^[2]

SARSA算法和Q學習算法的區別主要在期望獎勵Q值的更新方法上。SARSA算法使用五元組(s_t, a_t, r_t, s_t+1, a_t+1)來進行更新，其中s、a、r分別為馬可夫決策過程（MDP）中的狀態、動作、獎勵，t和t+1分別為當前步和下一步。^[3]