GRPO 的数学原理其实就像一套高效的评分系统,它帮助 DeepSeek 模型在一组回答中迅速找到最佳答案。通过比较每个回答与其他回答的优劣,模型能清楚地知道哪些回答更准确、更符合要求,从而不断调整和优化自己的策略。
这样一来,就不需要额外的评估器,既节省了计算资源,又能在实际应用中不断提高推理能力。
1. 什么是 GRPO?
Group Relative Policy Optimization(GRPO) 是一种专为提升大语言模型推理能力设计的强化学习(RL)算法。与传统方法不同,GRPO 不依赖外部评估器(critic)来指导学习,而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅简化了训练过程,还大幅提高了效率,特别适用于需要复杂问题求解和长推理链的任务。
2. 为什么需要 GRPO?
传统强化学习方法(如 Proximal Policy Optimization(PPO))在大语言模型推理任务中存在以下挑战:
依赖 Critic 模型
• PPO 需要一个额外的 critic 模型来估算每个回答的价值,这会使内存和计算成本翻倍。 • Critic 模型的训练过程复杂,容易出错,尤其是在涉及主观或细微评估的任务中。
高计算成本
• RL 训练通常需要大量计算资源来不断评估和优化模型的输出。 • 在大规模 LLM 上应用这些方法会进一步加剧计算成本。
可扩展性问题
• 绝对奖励评估在处理多样化任务时存在困难,导致泛化能力受限,难以适用于不同的推理场景。
GRPO 如何应对这些挑战?
1. 无需 Critic,降低成本 GRPO 通过组内回答比较消除了对独立评估器的依赖,从而大幅降低了计算资源的需求。 2. 相对评估机制 它通过对比同一组回答的表现来衡量质量,而非单独打绝对分,这使得模型能够更直观地识别哪些回答更优。 3. 高效训练,易于扩展 聚焦于组内优势的计算,使得奖励估计过程更简单,进而使训练过程既高效又便于扩展到大规模模型上。
GRPO 的核心思想是 相对评估,具体而言:
• 每个输入,模型会生成一组可能的回答。 • 这些回答不会单独评估,而是通过相互比较来确定优劣。 • 奖励机制 基于回答相对于组内平均水平的优势或劣势,而非绝对得分。
这种方法不仅提升了训练效率,还通过组内竞争不断推动模型优化推理能力,进而赋能 DeepSeek 在复杂任务中取得卓越表现。
在 GRPO 中,目标函数决定了模型如何更新策略以生成更高质量的回答。下面我们逐步解析这一过程。
1. GRPO 目标函数概览
我们可以直观了解 GRPO 的目标函数如何构建。