分布ソフト・アクター・クリティック法

分布ソフト・アクター・クリティック法（DSAC（でぃーさっく）:Distributional Soft Actor Critic）は、連続行動空間を持つ複雑なシステムにおいて意思決定または制御方策を学習するために調整された、モデルフリーのオフポリシー強化学習アルゴリズムの総称である^[1]。期待収益のみに焦点を当てる従来の方法とは異なり、DSACアルゴリズムは、価値分布と呼ばれる確率的収益に関するガウス分布を学習するように設計されている。このガウス価値分布学習への重点化は、価値の過大評価を著しく減少させ、ひいては方策の性能を向上させる。さらに、DSACによって学習された価値分布は、リスク考慮型方策の学習にも使用できる^[2]^[3]^[4]。技術的な観点から見ると、DSACは基本的に、ソフト・アクター・クリティック法（SAC）の分布への適応である^[5]。

現在までに、DSACファミリーは、最初のDSAC-v1とその改良版であるDSAC-T（DSAC-v2とも呼ばれる）の2つのバージョンがあり、後者はMujocoベンチマークタスクにおいて通常のSACよりも優れた能力を示している。DSAC-Tのソースコードは、https://github.com/Jingliang-Duan/DSAC-Tにて入手可能である。

どちらのバージョンも、GOPSという高度なPytorchベースの強化学習ツールキットに統合されている^[6]。

[1]

[2]

[3]

[4]

[5]

[6]

分布ソフト・アクター・クリティック法

参照

Wikiwand - on