![cover image](https://wikiwandv2-19431.kxcdn.com/_next/image?url=https://upload.wikimedia.org/wikipedia/commons/thumb/f/fe/Kernel_Machine.svg/langja-640px-Kernel_Machine.svg.png&w=640&q=50)
強化学習
状態を観測して取るべき行動を決定する問題を扱う機械学習の一種 / ウィキペディア フリーな encyclopedia
親愛なるWikiwand AI, これらの重要な質問に答えるだけで、簡潔にしましょう:
トップの事実と統計を挙げていただけますか 強化学習?
この記事を 10 歳向けに要約してください
すべての質問を表示
強化学習(きょうかがくしゅう、英: reinforcement learning、RL)は、ある環境内における知的エージェントが、現在の状態を観測し、得られる収益(累積報酬)を最大化するために、どのような行動をとるべきかを決定する機械学習の一分野である。強化学習は、教師あり学習、教師なし学習と並んで、3つの基本的な機械学習パラダイムの一つである。
強化学習が教師あり学習と異なる点は、ラベル付きの入力/出力の組を提示する必要がなく、最適でない行動を明示的に修正する必要もない。その代わり、未知の領域の探索と、現在の知識の活用の間のバランスを見つけることに重点が置かれる[1]。
この文脈の強化学習アルゴリズムの多くは動的計画法を使用するため、この環境は通常マルコフ決定過程(MDP)として定式化される[2]。古典的な動的計画法と強化学習アルゴリズムとの主な違いは、後者はMDPの正確な数学的モデルの知識を必要とせず、正確な方法では実行不可能な大規模MDPを対象にできることである。代表的なアルゴリズムとして時間差分学習(TD学習)やQ学習が知られている。