AI Algorithms

大模型强化学习：从 RLHF 到可验证奖励的后训练主线

Misaya Yang 2026-06-17T00:00:00.000Z

把后训练看成反馈系统设计：RLHF、DPO、RLAIF、RLVR、GRPO、PRM 与 verifier 分别解决奖励来源、策略更新、可验证反馈和 reward hacking 控制的问题。

RLHF, Reinforcement Learning, Post-training, Preference Optimization, DPO, RLVR, GRPO, Verifier, Agent RL

大模型强化学习：从 RLHF 到可验证奖励的后训练主线过去几年，大模型训练的主线大致可以被拆成三段：预训练、监督微调、后训练。预训练让模型获得语言、知识和模式压缩能力；SFT 让模型学会“像一个助手一样回答”；而强化学习真正改变的是模型在面对多个可能答案时的偏好排序，也就是：哪些行为应该被鼓励，哪些行为应该被抑制。更准确的理解是：大模型强化学习首先是一个“目标函数工程”问题，而不是传统意义上机器人在环境里试错的问题。它的核心不是让模型从零学会语言，而是在一个已经很强的语言模型上，继续塑造它的行为分布：更有帮助、更安全、更符合人类偏好，或者在数学、代码、工具调用这类任务上更愿意进行长程推理和自检。 RLHF 这条路线早期来自“从人类偏好中学习奖励”的思想。Christiano 等人在 2017 年展示了如何用人类对轨迹片段的偏好来训练 reward model，再用强化学习优化策略；后来 OpenAI 在摘要任务和 InstructGPT 中把这套方法系统用于语言模型后训练，形成了“收集偏好数据 → 训练奖励模型 → PPO 优化策略”的经典 RLHF pipeline。([arXiv][1]) 但这条线没有停在 PPO RLHF。DPO 把 KL 正则化 RLHF 问题改写成了一个直接的偏好分类损失，降低了训练复杂度；RLAIF 尝试用 AI 反馈替代昂贵的人类反馈；RLVR / RLVF 把奖励从主观偏好转向可验证信号；GRPO、RLOO、ReMax、DAPO、REINFORCE++ 等方法则重新审视 PPO 在大模型场景下是否过重。到了 reasoning model 阶段，强化学习不再只是“对齐助手语气”，而开始成为激发长链推理、搜索、验证和工具使用能力的关键机制。([arXiv][2]) 这篇笔记是一份面向大模型强化学习的阶段性技术梳理。它不把每个缩写孤立展开，而是把它们放进同一个框架里：奖励从哪里来，策略如何更新，反馈是否可验证，训练是否需要在线采样，最终优化的是偏好、推理还是行动能力。一、强化学习介绍：大模型为什么需要 RL 强化学习解决的问题...