GRPO 的数学原理其实就像一套高效的评分系统,它帮助 DeepSeek 模型在一组回答中迅速找到最佳答案。通过比较每个回答与其他回答的优劣,模型能清楚地知道哪些回答更准确、更符合要求,从而不断调整和优化自己的策略。

这样一来,就不需要额外的评估器,既节省了计算资源,又能在实际应用中不断提高推理能力。

1. 什么是 GRPO?

Group Relative Policy Optimization(GRPO) 是一种专为提升大语言模型推理能力设计的强化学习(RL)算法。与传统方法不同,GRPO 不依赖外部评估器(critic)来指导学习,而是通过对比一组回答之间的相对优劣来优化模型。这种相对评估机制不仅简化了训练过程,还大幅提高了效率,特别适用于需要复杂问题求解和长推理链的任务。

2. 为什么需要 GRPO?

传统强化学习方法(如 Proximal Policy Optimization(PPO))在大语言模型推理任务中存在以下挑战:

依赖 Critic 模型

  • • PPO 需要一个额外的 critic 模型来估算每个回答的价值,这会使内存和计算成本翻倍。
  • • Critic 模型的训练过程复杂,容易出错,尤其是在涉及主观或细微评估的任务中。

高计算成本

  • • RL 训练通常需要大量计算资源来不断评估和优化模型的输出。
  • • 在大规模 LLM 上应用这些方法会进一步加剧计算成本。

可扩展性问题

  • • 绝对奖励评估在处理多样化任务时存在困难,导致泛化能力受限,难以适用于不同的推理场景。

GRPO 如何应对这些挑战?

  1. 1. 无需 Critic,降低成本 GRPO 通过组内回答比较消除了对独立评估器的依赖,从而大幅降低了计算资源的需求。
  2. 2. 相对评估机制 它通过对比同一组回答的表现来衡量质量,而非单独打绝对分,这使得模型能够更直观地识别哪些回答更优。
  3. 3. 高效训练,易于扩展 聚焦于组内优势的计算,使得奖励估计过程更简单,进而使训练过程既高效又便于扩展到大规模模型上。

GRPO 的核心思想是 相对评估,具体而言:

  • • 每个输入,模型会生成一组可能的回答。
  • • 这些回答不会单独评估,而是通过相互比较来确定优劣。
  • • 奖励机制 基于回答相对于组内平均水平的优势或劣势,而非绝对得分。

这种方法不仅提升了训练效率,还通过组内竞争不断推动模型优化推理能力,进而赋能 DeepSeek 在复杂任务中取得卓越表现。

在 GRPO 中,目标函数决定了模型如何更新策略以生成更高质量的回答。下面我们逐步解析这一过程。

1. GRPO 目标函数概览

我们可以直观了解 GRPO 的目标函数如何构建。