RLHF (基于人类反馈的强化学习)

什么是 RLHF？

基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 是一种用于使语言模型与人类价值观和偏好保持一致的训练技术。它是将原始 GPT-3 变成我们今天使用的有用的 ChatGPT 助手的“秘方”。

核心思想: 根据人类对 AI 输出的排名训练奖励模型，然后使用该奖励模型微调 LLM 以生成“更好”的答案。

RLHF 的三个步骤:

监督微调 (SFT): 在人类演示上训练模型。
奖励建模: 人类对多个模型输出进行排名；训练一个“奖励模型”来预测这些排名。
强化学习 (PPO): 优化 LLM 以最大化来自奖励模型的分数。

前端相关性

你不会实施这个

RLHF 极其昂贵且复杂。它需要海量的人类反馈数据集和大量的 GPU 资源。作为一名前端工程师，你只需要知道这就是为什么模型拒绝回答有害问题，或者试图变得“有用、诚实和无害”的原因。

使用者

几乎所有顶级聊天模型都使用 RLHF 或类似的对齐技术（如 RLAIF - AI 反馈）：

OpenAI: ChatGPT (GPT-3.5, GPT-4)
Anthropic: Claude (Constitutional AI, RLHF 的变体)
Meta: Llama 2 & 3 (Llama-2-chat)
Google: Gemini

为什么它对应用开发很重要

理解 RLHF 有助于解释某些模型行为：

拒绝: 由于在 RLHF 期间对安全数据过度优化，模型可能会拒绝良性请求。
冗长: 由于 RLHF 模式，模型经常变得“话痨”或对答案进行对冲（“作为一门 AI 语言模型...”）。
风格: 模型的“个性”很大程度上是在这个阶段形成的。

延伸阅读