時間差分学習

時間差分学習（じかんさぶんがくしゅう、英: temporal difference learning）やTD学習とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。^[1]

状態価値関数 $V(s)$ は、現在および将来に得られる報酬（reward）になるように学習させる。ただし、将来分の報酬は、経済学でも使われる割引率（discount rate）をかけた物を使用する。これを割引収益（discounted return）と呼ぶ。

考え方自体は少なくとも1959年の時点でArthur Samuelがチェッカーをプレーする人工知能のプログラムで使用しているが、temporal difference learningという呼び方は1988年にリチャード・サットンが命名している。^[2]

[1]

[2]

時間差分学習

アルゴリズム

参照

関連項目

Wikiwand - on