评论：我是如何看懂 DeepSeek中的 GRPO 算法？

内容简介：一、如何看懂 DeepSeek中的 GRPO 算法？ 1、前置知识概率统计，微积分深度学习基础（损失, 归一化，反向传播，梯度下降，Pytorch等）信息熵，交叉熵，绝对熵（KL 散度） Transformers，Bert， GPT等模型 2、LLM 训练流程预训练数据格式：掩码无监督学习目标：学习海量语言数据中的知识和语言结构。指令微调数据格式：（prompt...

用户评论