トップQs
タイムライン
チャット
視点
エンドツーエンドの強化学習
ウィキペディアから
Remove ads
エンドツーエンドの強化学習(英: end-to-end reinforcement learning)では、エンドツーエンドのプロセス、つまり、ロボットまたはエージェントのセンサーからモーターまでのプロセス全体が、モジュール化されていない単一の層状またはリカレントニューラルネットワークを含み、 強化学習(RL)によってトレーニングされる。このアプローチは昔から長い間研究され続けているが、 Atari 2600のビデオゲーム(2013–15)[1][2][3][4] およびGoogle DeepMindによるAlphaGo (2016)[5] の学習で成功した結果によって再び隆盛した。
強化学習は従来、状態空間とアクション空間の明示的な設計を必要とする一方、状態空間からアクション空間へのマッピングは学習により行われるものであった[6]。したがって、強化学習はアクションの学習に限定されるものであり、人間の設計者は、センサー信号から状態空間を構築する方法を設計し、学習前に各アクションのモーションコマンドを生成する方法を提供する必要があった。強化学習では、次元の呪いを回避するための非線形関数の近似を提供する目的で、ニューラルネットワークがよく用いられてきた 。また主に知覚的エイリアシングまたは部分観測マルコフ決定過程 (POMDP)を回避するために、リカレントニューラルネットワークも採用されてきた[7] [8] [9] [10] [11] 。
エンドツーエンドの強化学習は、強化学習を、アクションのみの学習から、他の機能から独立して開発することが困難な高レベルの機能を含む、センサーからモーターまでのプロセス全体の学習にまで拡張する。 高レベルの機能は、センサーやモーターのいずれにも直接接続されないため、入力と出力を与えることさえ困難である。
Remove ads
歴史
このアプローチはTD-Gammon (1992)[12] で始まった。 バックギャモンでは、セルフプレイ中のゲーム状況の評価は、階層型ニューラルネットワークを用いたTD( )を通じて学習された。ボード上の特定の場所に置かれた特定の色のピースを示すために4つの入力が使用され、入力信号は合計198となった。組み込まれた知識はゼロであったため、ネットワークはゲームのプレイを中級レベルで学んだ。
柴田は1997年にこのフレームワークの使用を開始した[13] 。彼らは、連続運動タスクにQ学習とActor-Criticを採用し[14] 、メモリを要するタスクにリカレントニューラルネットワークを用いた[15]。彼らはこのフレームワークを実際のロボットタスクに適用した [16]。彼らはさまざまな機能の学習を示した。
2013年頃から、Google DeepMindはビデオゲーム [1][2]と囲碁(AlphaGo)[5] で印象的な学習結果を示した。彼らは、深層畳み込みニューラルネットワークを使用し、それは画像認識の面で優れた結果を示した。彼らは入力として、ほとんど生のRGBピクセル(84x84)の4フレームを使用した。ネットワークは強化学習に基づいてトレーニングされ、ゲームスコアの変化の兆候を表す報酬を用いた。全部で49のゲームが、最小限の事前知識を持つ同一のネットワークアーキテクチャとQ学習を使用して学習されたが、それはほとんどのゲームにおいて競合する方法よりも優れた結果を示し、プロの人間のゲームテスターに匹敵するか、あるいは勝るレベルで実行された[2] 。これはDeep-Qネットワーク(DQN)と呼ばれることもある。 AlphaGoでは、深層ニューラルネットワークは強化学習だけでなく、教師あり学習とモンテカルロ木検索によっても訓練される[5]。
Remove ads
機能の発展
柴田のグループは、このフレームワークから次のようなさまざまな機能が着想されることを示した[17]。
- 画像認識
- 色の恒常性(錯視)
- センサーの動き(アクティブ認識)
- 手と目の協調と手を伸ばす動作
- 脳活動の説明
- 知識の伝達
- 記憶
- 選択的注意
- 予測
- 探検
このフレームワークでの通信が確立された。 モードは次のとおりである[18]。
- 動的通信(交渉)
- 信号の二値化
- 実際のロボットとカメラを使用したグラウンデッド通信
参考文献
Wikiwand - on
Seamless Wikipedia browsing. On steroids.
Remove ads