内容简介:一、如何看懂 DeepSeek中的 GRPO 算法? 1、前置知识 概率统计, 微积分 深度学习基础(损失, 归一化,反向传播,梯度下降,Pytorch等) 信息熵, 交叉熵, 绝对熵(KL 散度) Transformers,Bert, GPT等模型 2、LLM 训练流程 预训练 数据格式:掩码无监督学习 目标:学习海量语言数据中的知识和语言结构。 指令微调 数据格式:(prompt...
用户评论
推荐服务