Proximal Policy Optimization

ウィキペディアから