RLHF (基于人类反馈的强化学习)
什么是 RLHF?
基于人类反馈的强化学习 (Reinforcement Learning from Human Feedback, RLHF) 是一种用于使语言模型与人类价值观和偏好保持一致的训练技术。它是将原始 GPT-3 变成我们今天使用的有用的 ChatGPT 助手的“秘方”。
核心思想: 根据人类对 AI 输出的排名训练奖励模型,然后使用该奖励模型微调 LLM 以生成“更好”的答案。
RLHF 的三个步骤:
- 监督微调 (SFT): 在人类演示上训练模型。
- 奖励建模: 人类对多个模型输出进行排名;训练一个“奖励模型”来预测这些排名。
- 强化学习 (PPO): 优化 LLM 以最大化来自奖励模型的分数。
前端相关性
你不会实施这个
RLHF 极其昂贵且复杂。它需要海量的人类反馈数据集和大量的 GPU 资源。作为一名前端工程师,你只需要知道这就是为什么模型拒绝回答有害问题,或者试图变得“有用、诚实和无害”的原因。
使用者
几乎所有顶级聊天模型都使用 RLHF 或类似的对齐技术(如 RLAIF - AI 反馈):
- OpenAI: ChatGPT (GPT-3.5, GPT-4)
- Anthropic: Claude (Constitutional AI, RLHF 的变体)
- Meta: Llama 2 & 3 (Llama-2-chat)
- Google: Gemini
为什么它对应用开发很重要
理解 RLHF 有助于解释某些模型行为:
- 拒绝: 由于在 RLHF 期间对安全数据过度优化,模型可能会拒绝良性请求。
- 冗长: 由于 RLHF 模式,模型经常变得“话痨”或对答案进行对冲(“作为一门 AI 语言模型...”)。
- 风格: 模型的“个性”很大程度上是在这个阶段形成的。