R1模型训练

首先,DeepSeek R1 创造性地基于 DeepSeek V3 基座模型,通过大规模强化学习技术,得到了一个纯粹通过强化学习增强的强推理模型,即 DeepSeek-R1-Zero。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则(rule-based)的方法,确保强化学习可以规模化,并实现面向强化学习的扩展(Scaling).

DeepSeek R1 的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域,还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用 DeepSeek R1 进行写作等任务时,能够感受到其强大的深度思考能力的原因。

总结:DeepSeek R1 的重要贡献体现在两个方面:一是通过规则驱动的方法实现了大规模强化学习;二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调,实现了推理能力的跨任务泛化。这使得 DeepSeek R1 能够成功复现 OpenAI o1 的推理水平。

能力密度

能力密度:所谓的能力密度,可以理解为模型在各种评测集上展现出来的能力,除以其参数规模,或者说是激活的参数规模。我们观察过去一年半发布的代表性模型,发现其能力密度大约每 100 天增加一倍。这意味着每过 100 天,我们可以用一半的参数实现相同的能力。这一现象背后有多个因素影响:

1. 数据质量:更高的数据质量取决于数据治理。高质量的数据能够提升模型的训练效果。

2. 模型架构:采用更稀疏激活的模型架构,可以用更少的激活参数承载更多的能力。

3. 学习方法:包括 OpenAI 在内的所有一线团队都在开展所谓的“scaling prediction”。在真正训练模型之前,我们会进行大量的风洞实验,积累各种预测数据,以确定模型需要什么样的数据配比和超参配置,从而达到最佳效果。

智能革命

在信息革命刚刚开始的时候,IBM 的创始人沃森曾认为,世界上不需要超过五台主机就可以满足全世界的计算需求。但到了今天,我们可以看到全球有数十亿、上百亿的计算设备在服务于全人类的社会。

AI时代的核心引擎=电力、算力、智力

启示

AI这个智能时代的创新是无边界的,范围特别广阔,别管是在架构方面还是硬件方面。方案都有多,创新的点也不局限于现有的方案。