我是如何看懂 DeepSeek中的 GRPO 算法？

一、如何看懂 DeepSeek中的 GRPO 算法？

1、前置知识

概率统计，微积分
深度学习基础（损失, 归一化，反向传播，梯度下降，Pytorch等）
信息熵，交叉熵，绝对熵（KL 散度）
Transformers，Bert， GPT等模型

2、LLM 训练流程

预训练

数据格式：掩码无监督学习
目标：学习海量语言数据中的知识和语言结构。

指令微调

数据格式：（prompt，response）问答对监督学习
目标：让模型学会回答问题、完成任务。

奖励模型

训练奖励模型

强化学习RLHF训练

输入 prompt x，模型生成答案 y。
使用奖励模型计算奖励
基于 Proximal Policy Optimization (PPO) 优化生成策略，使得奖励 r 最大化，同时限制生成分布不偏离 SFT 模型的原始分布

3、强化学习基础

强化学习（RL, Reinforcement Learning）依据策略 -执行动作 -感知状态 -获得奖励。

主要有三个组成部分：策略，价值函数，模型

策略

π函数，输入一个状态，得到 a 的概率分布

价值函数

执行动作后得到所有奖励的预测

模型

模型由状态转移概率和奖励函数组成

4、常见强化学习算法

值迭代 (Value Iteration)：通过不断更新状态的价值函数来求解最优策略，通常用于确定性环境。
Q-learning：一种无模型的强化学习方法，利用 Q 函数来估计每个状态-动作对的期望累积奖励，更新 Q 值以逐步找到最优策略。
策略梯度 (Policy Gradient)：直接优化策略函数，通过梯度上升法最大化累积奖励，常用于处理高维动作空间。

5、策略梯度算法

算法目标

最大化总奖励，即调节θ 获得最大期望回报

算法步骤

假设在一场游戏中，τ是环境与动作的轨迹组合即

策略函数是一个参数为θ的网络，那么轨迹概率为

最大化期望奖励加权求和，即目标函数

使用梯度上升法最大化 R_θ奖励，即目标函数的梯度

更新 θ 的参数

具体梯度公式

梯度公式直观理解

具体梯度的计算：

在一场游戏的一个回合中我们收集多对(s, t) 和总奖励R(τ) ，在一个回合完成后就可以计算梯度。

已知 R(τ) 和（s, t）通过梯度公式就可以反过来计算出梯度的具体值，且取多个 T 轨迹的平均值，这就是蒙特卡洛法

具体例子

已知梯度公式：

第一场游戏（总回报）：

在 s_1 采取 a_1，获得回报 r_1 = 2；
在 s_2 采取 a2a_2，获得回报 r_2 = 3；
在 s_3 采取 a3a_3，获得回报 r_3 = 5。

第二场游戏（总回报）：

在 s_1’ 采取 a_1’，获得回报 r_1’ = 4；
在 s_2’ 采取 a_2’，获得回报 r_2’ = 5；
在 s_3’ 采取 a_3’，获得回报 r_3’ = 6。

已知已知，分别为：

0.5， 0.3， 0.2

计算梯度：

公式解释：

策略梯度就是简单粗暴的根据奖励来更新梯度，如果执行某个（s，a）pair 后，轨迹 T 的总奖励为正就增加在 s 执行a 的概率。为负就减少在 s 执行a 的概率

梯度计算公式推导

目标函数
目标函数梯度
将 t轨迹展开为 pair
得到
将 4 代入 2 得到梯度公式

策略梯度优化技巧

增加基线
指派合适的分数
优化频繁采样

为什么策略梯度算法采样数据只能用一次因此需要大量时间采样？

策略梯度算法采样数据和更新参数都是基于当前策略 (参数为θ的网络)，当一次更新参数后策略已经发生改变，所以采样数据只能使用一次需要频繁采样，训练效率低下

6、策略梯度类比深度学习（分类）

State --> 样本
Action --> 标签
Policy --> 分类器

7、PPO (近端策略优化)

在策略梯度的基础上， PPO 其实也可以做是策略梯度的锦上添花，PPO 引入了重要性采样和 GAE ，其目标函数为：

8、GRPO (组内策略优化)

GRPO 用组内的平均值代替基线，也就是PPO 中采样一个的问题变为采样一组问题，也就是将 A_t 替换为组内归一化的优势，从而舍弃了价值模型，提高了训练效率

代码实战更重要，见下文

9、实战项目

DeepSpeed-Chat
rlhf-ppo
open-rlhf
grpo_trainer

10、相关参考资料

EasyRL
DeepSeek-R1
…

二、如何系统学习掌握AI大模型？

AI大模型作为人工智能领域的重要技术突破，正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口，掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程，需要从基础开始，逐步深入到更高级的技术。

全面的AI大模型学习资源资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术，作为新手一定要先学习成长路线图，方向不对，努力白费。

这里，我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的，我们精选了一系列深入探讨大模型技术的书籍和学习文档，它们由领域内的顶尖专家撰写，内容全面、深入、详尽，为你学习大模型提供坚实的理论基础。（书籍含电子版PDF）

3. 大模型视频教程

对于很多自学或者没有基础的同学来说，书籍这些纯文字类的学习教材会觉得比较晦涩难以理解，因此，我们提供了丰富的大模型视频教程，以动态、形象的方式展示技术概念，帮助你更快、更轻松地掌握核心知识。

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估，以了解哪些行业更适合引入大模型的技术和应用，以及在哪些方面可以发挥大模型的优势。

5. 大模型项目实战

学以致用 ，当你的理论知识积累到一定程度，就需要通过项目实战，在实际操作中检验和巩固你所学到的知识，同时为你找工作和职业发展打下坚实的基础。

6. 大模型面试题

面试不仅是技术的较量，更需要充分的准备。

在你已经掌握了大模型技术之后，就需要开始准备面试，我们将提供精心整理的大模型面试题库，涵盖当前面试中可能遇到的各种技术问题，让你在面试中游刃有余。

微信扫描下方CSDN官方认证二维码保证100%免费

我是如何看懂 DeepSeek中的 GRPO 算法？

一、如何看懂 DeepSeek中的 GRPO 算法？

1、前置知识

2、LLM 训练流程

预训练

指令微调

奖励模型

强化学习RLHF训练

3、强化学习基础

策略

价值函数

模型

4、常见强化学习算法

5、策略梯度算法

算法目标

算法步骤

梯度公式直观理解

梯度计算公式推导

策略梯度优化技巧

为什么策略梯度算法采样数据只能用一次因此需要大量时间采样？

6、策略梯度 类比深度学习（分类）

7、PPO (近端策略优化)

8、GRPO (组内策略优化)

9、实战项目

10、相关参考资料

二、如何系统学习掌握AI大模型？

1. 成长路线图&学习规划

2. 大模型经典PDF书籍

3. 大模型视频教程

4. 2024行业报告

5. 大模型项目实战

6. 大模型面试题

如何在Telegram上用粉丝宝黑客策略打造活跃的加密货币社区

Doge资讯

BTC资讯

ETH资讯

加密货币安全

加密货币空投

House Training: The Mindset And Approach You Must Take

House Training Products, Supplies and Equipment – A Buyers Guide

Training Puppy the First Week

Healthy Puppy Guide

Crate Training A Puppy – The Ultimate Expert Guide

House Training: Feeding Choices Make A Massive Difference

深度解析DeepSeek的GRPO算法：强化学习优化的新范式

DeepSeek用到的GRPO算法究竟是什么？

什么是 DeepSeek？为什么它会颠覆人工智能领域？

解读 DeepSeek 关键 RL 算法 GRPO

DeepSeek背后的数学：深入解析GRPO

【论文阅读】DeepSeekR1 ：2.2.1 GRPO方法 公式一 （抽象期望值公式的展开/实现式）

6、策略梯度类比深度学习（分类）

【论文阅读】DeepSeekR1 ：2.2.1 GRPO方法公式一（抽象期望值公式的展开/实现式）