内容简介:一、DeepSeek的GRPO DeepSeek的GRPO(Group Relative Policy Optimization,群体相对策略优化)是一种强化学习算法,专门针对大语言模型的训练而设计,具有高效性和稳定性。以下是GRPO算法的核心特点和工作原理: 1、特点 1)无需价值函数模型:与传统的PPO(近端策略优化)算法不同,GRPO不依赖单独的价值函数模型来估计优势...
用户评论
推荐服务