热门问题
时间线
聊天
视角

近端策略優化

来自维基百科,自由的百科全书

Remove ads

近端策略優化(英語:Proximal Policy OptimizationPPO[1]OpenAI公司於2017年開發的一系列無模型強化學習算法。該算法採用了策略梯度算法,這意味著它們的做法是搜索策略空間而非狀態-動作對的值。

近端策略優化包含了置信域方法的一些優點,如更易於實現,更通用,並且具有更好的樣本複雜度。[2]該算法是通過使用不同的目標函數來完成的。[3]

另見

參考文獻

外部連結

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads