AI Algorithms

大模型强化学习:从 RLHF 到可验证奖励的后训练主线

Misaya Yang

一篇面向后训练技术栈的系统梳理:把 RLHF、DPO、RLAIF、RLVR、GRPO、PRM、Verifier 与 Agent RL 放进同一张反馈系统地图。

RLHF, Reinforcement Learning, Post-training, Preference Optimization, DPO, RLVR, GRPO, Verifier, Agent RL

大模型强化学习:从 RLHF 到可验证奖励的后训练主线 过去几年,大模型训练的主线大致可以被拆成三段:预训练、监督微调、后训练。预训练让模型获得语言、知识和模式压缩能力;SFT 让模型学会“像一个助手一样回答”;而强化学习真正改变的是模型在面对多个可能答案时的偏好排序,也就是: 哪些行为应该被鼓励,哪些行为应该被抑制 。 更准确的理解是:大模型强化学习首先是一个“目标函数工程”问题,而不是传统意义上机器人在环境里试错的问题。它的核心不是让模型从零学会语言,而是在一个已经很强的语言模型上,继续塑造它的行为分布:更有帮助、更安全、更符合人类偏好,或者在数学、代码、工具调用这类任务上更愿意进行长程推理和自检。 RLHF 这条路线早期来自“从人类偏好中学习奖励”的思想。Christiano 等人在 2017 年展示了如何用人类对轨迹片段的偏好来训练 reward model,再用强化学习优化策略;后来 OpenAI 在摘要任务和 InstructGPT 中把这套方法系统用于语言模型后训练,形成了“收集偏好数据 → 训练奖励模型 → PPO 优化策略”的经典 RLHF pipeline。([arXiv][1]) 但这条线没有停在 PPO RLHF。DPO 把 KL 正则化 RLHF 问题改写成了一个直接的偏好分类损失,降低了训练复杂度;RLAIF 尝试用 AI 反馈替代昂贵的人类反馈;RLVR / RLVF 把奖励从主观偏好转向可验证信号;GRPO、RLOO、ReMax、DAPO、REINFORCE++ 等方法则重新审视 PPO 在大模型场景下是否过重。到了 reasoning model 阶段,强化学习不再只是“对齐助手语气”,而开始成为激发长链推理、搜索、验证和工具使用能力的关键机制。([arXiv][2]) 这篇笔记是一份面向大模型强化学习的阶段性技术梳理。它不把每个缩写孤立展开,而是把它们放进同一个框架里: 奖励从哪里来,策略如何更新,反馈是否可验证,训练是否需要在线采样,最终优化的是偏好、推理还是行动能力。 一、强化学习介绍:大模型为什么需要 RL 强化学习解决的问题...