エンドツーエンドの強化学習

エンドツーエンドの強化学習（英: end-to-end reinforcement learning）では、エンドツーエンドのプロセス、つまり、ロボットまたはエージェントのセンサーからモーターまでのプロセス全体が、モジュール化されていない単一の層状またはリカレントニューラルネットワークを含み、強化学習（RL）によってトレーニングされる。このアプローチは昔から長い間研究され続けているが、 Atari 2600のビデオゲーム（2013–15）^[1]^[2]^[3]^[4] およびGoogle DeepMindによるAlphaGo （2016）^[5] の学習で成功した結果によって再び隆盛した。

強化学習は従来、状態空間とアクション空間の明示的な設計を必要とする一方、状態空間からアクション空間へのマッピングは学習により行われるものであった^[6]。したがって、強化学習はアクションの学習に限定されるものであり、人間の設計者は、センサー信号から状態空間を構築する方法を設計し、学習前に各アクションのモーションコマンドを生成する方法を提供する必要があった。強化学習では、次元の呪いを回避するための非線形関数の近似を提供する目的で、ニューラルネットワークがよく用いられてきた。また主に知覚的エイリアシングまたは部分観測マルコフ決定過程（POMDP）を回避するために、リカレントニューラルネットワークも採用されてきた^[7] ^[8] ^[9] ^[10] ^[11] 。

エンドツーエンドの強化学習は、強化学習を、アクションのみの学習から、他の機能から独立して開発することが困難な高レベルの機能を含む、センサーからモーターまでのプロセス全体の学習にまで拡張する。高レベルの機能は、センサーやモーターのいずれにも直接接続されないため、入力と出力を与えることさえ困難である。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

エンドツーエンドの強化学習

歴史

機能の発展

参考文献

Wikiwand - on