“又来一个 AlphaZero 时刻!”这句话或许会在科研圈中引起共鸣。DeepSeek 团队靠着炫酷的纯强化学习(RL),在数学与代码这种双螺旋(Chain-of-Thought)的数据上下一番苦功,催生出了堪比闭源模型的 Reasoning 大牛——R1-Zero。在一片“脑洞大开”的 RL 热潮中,他们不仅找到了激发模型推理能力的秘诀,还为全世界用户呈现了模型在回答问题前的“内心独白”。接下来,让我们一探究竟。
一、背景:何为 R1-Zero 与 DeepSeek R1?
与 OpenAI 类似,DeepSeek 的研究者们在 V3 模型的基础上进行了强化学习训练,目标是使模型拥有惊人的推理能力。这里的关键在于采用了一种叫做 GRPO(Group Relative Policy Optimization)的新型 RL 算法。通过 GRPO 算法,R1-Zero 不依赖外界的人工反馈,而仅凭 RL 就激发出推理能力,堪称推理圈的一股清流。
然而,纯 RL 有时候就像一位不修边幅的艺术家——脑洞虽大,但语言时而混搭中英,时而神秘莫测,让人哭笑不得。为了解决这个问题,DeepSeek 团队进行了多阶段的模型训练和微调,从而构造出既强大又能通俗表达的 Dee