DeepSeek的核心创新点

R1模型训练

首先，DeepSeek R1 创造性地基于 DeepSeek V3 基座模型，通过大规模强化学习技术，得到了一个纯粹通过强化学习增强的强推理模型，即 DeepSeek-R1-Zero。DeepSeek 能够实现大规模强化学习的一个重要技术特点是其采用了基于规则（rule-based）的方法，确保强化学习可以规模化，并实现面向强化学习的扩展（Scaling）.

DeepSeek R1 的第二个重要贡献在于其强化学习技术不仅局限于数学、算法代码等容易提供奖励信号的领域，还能创造性地将强化学习带来的强推理能力泛化到其他领域。这也是用户在实际使用 DeepSeek R1 进行写作等任务时，能够感受到其强大的深度思考能力的原因。

总结：DeepSeek R1 的重要贡献体现在两个方面：一是通过规则驱动的方法实现了大规模强化学习；二是通过深度推理 SFT 数据与通用 SFT 数据的混合微调，实现了推理能力的跨任务泛化。这使得 DeepSeek R1 能够成功复现 OpenAI o1 的推理水平。

能力密度

能力密度：所谓的能力密度，可以理解为模型在各种评测集上展现出来的能力，除以其参数规模，或者说是激活的参数规模。我们观察过去一年半发布的代表性模型，发现其能力密度大约每 100 天增加一倍。这意味着每过 100 天，我们可以用一半的参数实现相同的能力。这一现象背后有多个因素影响：

1. 数据质量：更高的数据质量取决于数据治理。高质量的数据能够提升模型的训练效果。

2. 模型架构：采用更稀疏激活的模型架构，可以用更少的激活参数承载更多的能力。

3. 学习方法：包括 OpenAI 在内的所有一线团队都在开展所谓的“scaling prediction”。在真正训练模型之前，我们会进行大量的风洞实验，积累各种预测数据，以确定模型需要什么样的数据配比和超参配置，从而达到最佳效果。

智能革命

在信息革命刚刚开始的时候，IBM 的创始人沃森曾认为，世界上不需要超过五台主机就可以满足全世界的计算需求。但到了今天，我们可以看到全球有数十亿、上百亿的计算设备在服务于全人类的社会。

AI时代的核心引擎=电力、算力、智力

启示

AI这个智能时代的创新是无边界的，范围特别广阔，别管是在架构方面还是硬件方面。方案都有多，创新的点也不局限于现有的方案。

DeepSeek的核心创新点

如何在Telegram上用粉丝宝黑客策略打造活跃的加密货币社区

Doge资讯

BTC资讯

ETH资讯

加密货币安全

加密货币空投

House Training: The Mindset And Approach You Must Take

House Training Products, Supplies and Equipment – A Buyers Guide

Training Puppy the First Week

Healthy Puppy Guide

Crate Training A Puppy – The Ultimate Expert Guide

House Training: Feeding Choices Make A Massive Difference

DeepSeek、强化学习及DeepSeek后时代

Deepseek的核心是强化学习？哪什么是强化学习？通俗解释与专业解读

计科趣闻 | 玩转DeepSeek：大模型学习指南+避坑攻略

deepseek强化学习

宋亭亭等：DeepSeek或催化中高阶智驾加速渗透

强化学习与大模型后训练：DeepSeek R1 如何获得推理能力？