热门问题
时间线
聊天
视角

基于人类反馈的强化学习

以回饋內容來訓練機器學習的技術 来自维基百科,自由的百科全书

基于人类反馈的强化学习
Remove ads
Remove ads

基于人类反馈的强化学习(英语:reinforcement learning from human feedback,简称RLHF),包括基于人类偏好的强化学习reinforcement learning from human preferences),是一种直接根据人类反馈训练“奖励模型”的机器学习技术,并使用该模型作为强化学习中的奖励函数,再通过近端策略优化等算法以优化智慧体(agent)策略。[1]奖励模型在进行策略优化之前预先训练,以预测给定的输出是好(高奖励)还是坏(低奖励)。RLHF可以提高强化学习智慧体的鲁棒性(robustness)和探索性(exploration),尤其适用于奖励函数稀疏或有噪声(不确定性)的情形。[2]

人类反馈最常见的收集方式是要求人类对智慧体行为的实例进行偏好排序。[3][4][5]之后可以通过Elo等级分等方式利用排序结果对输出进行评分。[1]虽然这种偏好判断被广泛采用,但还有其他类型的人类反馈可以提供更丰富的资讯,例如数字反馈、自然语言反馈和编辑率等。

标准RLHF假设人类偏好遵循成对比较的布拉德利-特里模型英语Bradley–Terry model或者多重比较的普拉斯基特-卢斯模型(Plackett–Luce model),并通过最小化交叉熵损失以学习奖励模型。[6]在训练完奖励模型之后,RLHF根据学习到的奖励模型对语言模型进行进一步微调,使模型与人类偏好保持一致。

RLHF适用于模型输出的质量难以用算法清晰定义;但人类可以轻松判断的任务。例如,如果模型的任务是生成一个引人入胜的故事,人类可以对人工智慧生成的不同故事的质量进行评分,而模型可以利用人类的反馈来提高其生成新故事的能力。

RLHF已应用于自然语言处理的各个领域,例如对话、文本摘要和自然语言理解。在普通的强化学习中,智慧体根据“奖励函数”从自己的行为中学习。但在自然语言处理任务中,奖励通常不容易定义或测量,特别是在处理涉及人类价值观或偏好的复杂任务时尤其如此。在RLHF的帮助下,语言模型能够提供与这些复杂价值观相符的答案,生成更为详细的回复,同时拒绝不适当或超出模型知识空间的问题。[7]经RLHF训练的语言模型包括OpenAI开发的ChatGPT及其前身InstructGPT[4]Google DeepMind的Sparrow等。

除自然语言处理外,RLHF还被应用于视频游戏机器人开发等其他领域。例如,OpenAI和DeepMind训练的智慧体能基于人类喜好来玩Atari游戏。[8][9]这些智慧体在多种测试环境中都表现出色,经常能超越人类的水平。[10]

Remove ads

参考文献

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads