深度强化学习

概述

深度学习

深度学习是机器学习的一种，训练人工神经网络来将一组输入转换成一组特定的输出。深度学习常常以监督式学习的形式，用带有标签的资料集来做训练。深度学习的方法可以直接处理高维度、复杂的原始输入资料，相较于之前的方法更不需要人为的特征工程从输入资料中提取特征。因此，深度学习已经在电脑视觉、自然语言处理等领域上带来突破性的进展。

强化学习

强化学习是让智能代理人和环境互动，从中尝试错误以学习做出更好的决策。这类的问题在数学上常常用马可夫决策过程表示：在每个时间点，代理人处在环境的一个状态 $s$ ，在代理人采取了一个动作 $a$ 之后，会收到一个奖励 $r$ ，并根据环境的状态转移函数 $p(s'|s,a)$ 转移到下一个状态 $s'$ 。代理人的目标是学习一组策略 $\pi (a|s)$ （也就是一组从当前的状态到所要采取的动作之间的对应关系），使得获得到的总奖励最大。与最佳控制不同，强化学习的算法只能透过抽样的方式来探测状态转移函数 $p(s'|s,a)$ 。

深度强化学习

在很多现实中的决策问题里，马可夫决策过程的状态 $s$ 的维度很高（例如：相机拍下的照片、机器人感测器的串流），限制了传统强化学习方法的可行性。深度强化学习就是利用深度学习的技术来解决强化学习中的决策问题，训练人工神经网络来表示策略 $\pi (a|s)$ ，并针对这样的训练场景开发特化的算法。^[2]

算法

如今已经有不少深度强化学习算法来训练决策模型，不同的算法之间各有优劣。粗略来说，深度强化学习算法可以依照是否需要建立环境动态模型分为两类：

模型基底深度强化学习算法：建立类神经网络模型来预测环境的奖励函数 $r(s,a)$ 和状态转移函数 $p(s'|s,a)$ ，而这些类神经网络模型可以用监督式学习的方法来训练。在训练好环境模型之后，可以用模型预测控制的方法来建立策略 $\pi (a|s)$ 。然而，因为环境模型不一定能完美地预测真实环境，代理人和环境互动的过程中常常需要重新规划动作。另外，也可以用蒙地卡罗树搜寻或交叉熵方法（英语：Cross-entropy method）来依据训练好的环境模型规划动作。

无模型深度强化学习算法：直接训练类神经网络模型来表示策略 $\pi (a|s)$ 。这里的“无模型”指的是不建立环境模型，而非不建立任何机器学习模型。这样的策略模型可以直接用策略梯度（policy gradient）^[3]训练，但是策略梯度的变异性太大，很难有效率地进行训练。更进阶的训练方法尝试解决这个稳定性的问题：可信区域策略最佳化（Trust Region Policy Optimization，TRPO）^[4]、近端策略最佳化（Proximal Policy Optimization，PPO）^[5]。另一系列的无模型深度强化学习算法则是训练类神经网络模型来预测未来的奖励总和 $V^{\pi }(s)$ 或 $Q^{\pi }(s,a)$ ^[6]，这类算法包括时序差分学习、深度Q学习、SARSA。如果动作空间是离散的，那么策略 $\pi (a|s)$ 可以用枚举所有的动作来找出 $Q$ 函数的最大值。如果动作空间是连续的，这样的 $Q$ 函数无法直接建立策略 $\pi (a|s)$ ，因此需要同时训练一个策略模型^[7]^[8]^[9]，也就变成一种“演员－评论家”算法。

Remove ads

深度强化学习

概述

深度学习

强化学习

深度强化学习

算法

应用

游戏

机器人技术

智能城市

参阅

参考文献

Wikiwand - on