多腕バンディット問題

経験的動機

多腕バンディット問題は、新しい知識の取得（探索 exploration）と既存の知識に基づいた意思決定の最適化（活用 exploitation）を同時に試みるエージェントをモデル化したものである。エージェントは、これらの競合するタスクのバランスをとりながら、考慮される期間中の総価値を最大化しようとする。以下のような例がある。

患者の損失を最小限に抑えながら、さまざまな実験的治療の効果を調査する臨床試験^[1] ^[4]
ネットワークの遅延を最小化するための適応的なルーティングの取り組み
金融ポートフォリオの設計^[5]^[6]

このような実用例では、すでに獲得した知識に基づく報酬の最大化と、さらに知識を増やすための新しい行動の思考とのバランスが問題となる。これは、機械学習における探索 exploration と活用 exploitation のトレードオフとして知られる。

このモデルは、さまざまなプロジェクトへのリソースの動的な配分を制御するために使用されており、それぞれの可能性の難易度と報酬に関する不確実性がある場合、どのプロジェクトに取り組むかという問題に答えている^[7]。

第二次世界大戦で連合国の科学者によって検討されたが、それはあまりに難解なため、ピーター・ホイットルによれば、ドイツの科学者も時間を浪費できるようにと、この問題をドイツに投下することが提案されたのだという^[8]。

現在一般的に分析されているのは、1952年にハーバート・ロビンスによって定式されたバージョンである。

Remove ads

多腕バンディットモデル

多腕バンディット（略称：バンディットまたは MAB）は、確率分布 $B=\{R_{1},\dots ,R_{K}\}$ の集合と見做すことができる。各確率分布は、 $K\in \mathbb {N} ^{+}$ 個のレバーのそれぞれによって配分される報酬に関連する。 $\mu _{1},\dots ,\mu _{K}$ を報酬分布の平均値とする。ギャンブラーは各ラウンドに1つのレバーを操作し、報酬を観察する。収集された報酬の合計を最大化することが目的である。地平線 $H$ は残りのラウンド数である。バンディット問題は、形式的には1状態のマルコフ決定過程と同等である。 $T$ ラウンド後の後悔 $\rho$ は、最適な戦略による報酬の合計と収集された報酬の合計との間の差の期待値として定義される。