本文深入探讨群体相对策略优化(GRPO)背后的数学原理,这是驱动DeepSeek卓越推理能力的核心强化学习算法。

我们将解析GRPO的工作原理、关键组成部分,以及它为何成为训练先进大规模语言模型的颠覆性技术。

GRPO的基础

什么是GRPO?群体相对策略优化(GRPO)是一种强化学习(RL)算法,专门设计用于增强大规模语言模型(LLM)的推理能力。

与传统的RL方法不同,后者通常依赖外部评估者(批评者)来引导学习,GRPO通过评估一组响应之间的相对关系来优化模型。这种方法提高了训练效率,使GRPO在需要复杂问题解决和长链思维的推理任务中表现尤为出色。

为什么选择GRPO?传统的RL方法,如近端策略优化(PPO),在应用于LLM的推理任务时面临着显著挑战:

1.依赖批评模型

PPO需要一个独立的批评模型来估计每个响应的价值,这增加了内存和计算的负担。

训练批评模型复杂且容易出错,尤其是对于需要主观或细致评估的任务。

2.高计算成本

RL管道通常需要大量计算资源来反复评估和优化响应。

将这些方法扩展到大型LLM时,计算成本进一步增加。

3.可扩展性问题

绝对奖励评估在处理多样化任务时困难,难以在不同推理领域间实现泛化。

GRPO如何解决这些挑战?

无批评模型优化:GRPO通过比较一组响应之间的相对关系,消除了对批评模型的需求,从而显著减少了计算开销。

相对评估:GRPO不依赖外部评估者,而是利用群体内部的动态来评估一个响应相较于同批次其他响应的表现。

高效训练:通过专注于基于群体的优势,GRPO简化了奖励估算过程,使其更快、更具可扩展性,适用于大型模型。

理解GRPO的目标函数

群体相对策略优化(GRPO)中的目标函数定义了模型如何学习改进其策略,从而提升生成高质量响应的能力。我们将一步步解析这个过程。

用简单术语理解GRPO目标函数

GRPO(群体相对策略优化)目标函数就像一份教学大纲,帮助模型通过比较自身的响应并一步步改进,从而提升生成答案的能力。我们将这个过程分解成易于理解的步骤:

目标:假设你在教一组学生解决数学问题。你不仅仅告诉他们谁的答案对错,而是比较所有学生的答案,找出谁做得最好(以及原因)。

然后,你通过奖励更好的方法并帮助改进较弱的解法来进行教学。这正是GRPO的工作原理——只是它教的是AI模型,而不是学生。

步骤分解

步骤1:选择查询

• 从训练数据集P(Q)中选择一个查询(q)。

• 示例:假设查询是“8 + 5的和是多少?”

步骤2:生成一组响应

• 模型针对该查询生成一组G个响应。

• 示例:模型生成以下响应:

• o1:“答案是13。”

• o2:“十三。”

• o3:“是12。”

• o4:“和是13。”

步骤3:计算每个响应的奖励

• 什么是奖励?奖励通过量化响应的质量来引导模型的学习。

• GRPO中的奖励类型:

• 准确性奖励:基于响应的正确性(例如,解答数学题)。

• 格式奖励:确保响应符合结构化要求(例如,推理过程需要包含在标签中)。

• 语言一致性奖励:惩罚语言混杂或格式不一致的响应。

• 根据每个响应的好坏,赋予一个奖励(ri)。

例如,奖励可能取决于:

• 准确性:答案是否正确?

• 格式:响应是否结构良好?

示例:

• r1 = 1.0(正确且格式良好)

• r2 = 0.9(正确但较不正式)

• r3 = 0.0(错误答案)

• r4 = 1.0(正确且格式良好)

步骤4:比较响应(群体优势)

• 计算每个响应相对于群体的优势(Ai)

用简单的方式理解,就是这样:

• 比较结果优于群体平均水平的响应会获得正分,而表现较差的响应会得到负分。

• 这种方式在群体内部激发竞争,推动模型生成更好的响应。

步骤5:使用裁剪更新策略

示例:如果新策略开始给o1分配过高的概率,裁剪机制确保不会过度强调这个响应。

这种方式保证了即使在像推理这样复杂的任务中,策略优化也能保持稳定和可靠。

步骤6:通过KL散度惩罚偏差

综合总结

GRPO目标函数的工作流程如下:

1. 为一个查询生成一组响应。

2. 根据预定义的标准(如准确性、格式)计算每个响应的奖励。

3. 在群体内比较响应,计算它们的相对优势(Ai)。

4. 更新策略,偏向具有较高优势的响应,并通过裁剪确保稳定性。

5. 规范化更新,防止模型偏离其基线太远。

为什么GRPO有效

无需批评模型:GRPO通过依赖群体比较避免了对独立评估者的需求,从而降低了计算成本。

稳定学习:裁剪和KL正则化确保模型平稳改进,避免剧烈波动。

高效训练:通过关注相对表现,GRPO非常适合像推理这样的任务,其中绝对评分很难实现。

现实生活类比

想象一组学生在解决问题。与其由老师单独批改每个学生的答案,不如让学生们自己相互比较答案。那些答得更好的学生会得到鼓励,而其他学生则从错误中学习。

随着时间的推移,整个小组会集体进步,变得更加准确和一致。GRPO将这一原理应用于训练AI模型,使它们能够高效且有效地学习。

立春好时节

分享

收藏

点赞

在看