トップQs
タイムライン
チャット
視点

時間差分学習

ウィキペディアから

時間差分学習
Remove ads

時間差分学習(じかんさぶんがくしゅう、: temporal difference learning)やTD学習とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。[1]

状態価値関数 は、現在および将来に得られる報酬(reward)になるように学習させる。ただし、将来分の報酬は、経済学でも使われる割引率(discount rate)をかけた物を使用する。これを割引収益(discounted return)と呼ぶ。

考え方自体は少なくとも1959年の時点でArthur Samuelがチェッカーをプレーする人工知能のプログラムで使用しているが、temporal difference learningという呼び方は1988年にリチャード・サットンが命名している。[2]

Remove ads

アルゴリズム

要約
視点

状態 のエージェントが行動 を選び、報酬 を得て、状態が に遷移したとする。このとき状態価値関数 を次の式で更新する。

ここで は学習率といい、 とする。割引率といい、 な定数である。

行動 は、状態価値関数を使用して選択する。

更新式は

とも書けるが、 をTD誤差(TD error)と呼ぶ。[3]

Remove ads

参照

関連項目

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads