王鑫
在国内舆论场中,DeepSeek创始人梁文峰与DeepSeek是深度捆绑的,有人称他是人工智能上甘岭的“黄继光”,有人说他是中国的“马斯克”。在笔者看来,更重要的或许在于做好DeepSeek与梁文峰思维的解码——当我们在谈论DeepSeek时,到底在谈论什么,或者说应该谈论什么。
其一:突围,山重水复疑无路
ChatGPT问世以来,全球AI竞赛正式进入“大力出奇迹”时代。当美国科技大厂已投入巨资,构建起了一套由他们制定的行业标准、生存法则时,当很多人潜意识中已默许,AI领域未来发展的话语权、主导权和控制权正牢牢掌握在西方手中时,来自中国的DeepSeek却突然闯了进来。
DeepSeek用架构算法、训练方式、工程优化等系统性创新,在千亿参数规模下展现出与GPT-o1-1217相当的推理能力,以显著降低的训练成本,走出了一条差异化技术路径,实现了国产大模型的突围。
美国拜登政府2022年实施并在此后多次收紧禁止向中国出售最先进芯片及芯片制造设备的禁令,目的就是限制中国获取尖端技术。DeepSeek团队正是在美国AI芯片禁运的压力下,不得不在较低性能的H800GPU上训练模型。但正是这样的“降维”,反而推动了算法优化的突破。
其二:创新,东风夜放花千树
DeepSeek的成功,挑战了AI领域“规模至上”的传统思维。从技术角度看,DeepSeek主要创造了哪些核心创新?
首先是模型架构。混合专家模型(MoE)通过将模型分成多个专家,并在每个特定任务中只激活少量合适的专家,从而在推理过程中减少参数量,提升效率。DeepSeek引入了新的无损负载均衡技术和路由网络方法,有效降低了通信开销,突破了传统方法增加通信开销换取高效推理的瓶颈,使得新框架更加稳定高效。
其次是算法突破。多头潜在注意力机制(Multi-HeadLatentAttention,MLA)是DeepSeek最关键的技术突破,它显著降低了模型推理成本。
第三是训练方式。DeepSeek-R1-Zero首次证明了基于大规模强化学习(RL)与高质量合成数据(SyntheticData)结合的技术路径,可在不依赖标注数据、监督微调(SFT)的情况下,获得高水平推理能力。在R1-Zero训练中,DeepSeek应用组相对优化策略(GRPO)和两个简单的奖励函数,使得R1-Zero自发形成了评估和优化推理的能力,产生令人惊叹的“顿悟时刻”(AhaMoment)。
第四是数据策略。DeepSeek采用高质量合成数据的数据策略与其训练方式、推理任务相匹配,极大降低了数据成本。“数据质量优先”的核心原则也已逐渐成为领域共识:比数据规模更重要的是数据质量与知识密度,相应地,DeepSeek采取了拒绝采样(rejectionsampling)等基于验证的数据筛选与增强方法。
最后是工程技术。DeepSeek绕过了英伟达的通用编程框架CUDA,使用了更底层也更复杂的PTX(ParallelThreadExecution)汇编语言直接操控GPU指令集,从而实现芯片算力的效用最大化,并为未来适配国产GPU留下巨大的想象空间。
其三:未来,长风破浪会有时
DeepSeek的横空出世让人们重新反思大模型、AGI领域暴力美学式的思维惯性,也重新关注算法、架构、优化等技术创新的巨大潜力。更重要的是,DeepSeek-R1还可以免费使用,而且是开源的。低成本与开放性的强强联合可能有助于普及AI技术,让其他国家(尤其是美国以外)的开发者能够入局。
DeepSeek撕掉了此前笼罩在AI之上的神秘面纱。它专注创新,在人工智能全球竞争白热化的关键时期形成突破,为中国的智能生态构建奠定关键基础;它拥抱开源,拒绝“CloseAI”,为全世界技术社区做出坚实贡献。当我们赞叹DeepSeek产品的巨大成功,也应当关注其团队的系统性创新能力,这既包含多方面的技术突破,也包括如何聚合“高密度技术人才”、如何为年轻团队提供高效的创新土壤。
最后,也要指出DeepSeek的关键破局点,是在保持推理能力相当的情况下,实现了训练及计算成本的极大降低。而从数学原理上说,并未跳出大模型浪潮范畴,这也意味着,DeepSeek也无法解决这一技术路线下不可解释、幻觉等内在问题。因此,关于智能“涌现”的根本奥秘,关于现有模型的智能边界与潜力,关于模型的解释性、泛化性、稳定性,尤其是幻觉引发的认知安全风险,仍是值得深入探索的重要议题。
长期而言,算力依然是人工智能的基础设施,我们也期待芯片领域诞生属于中国的DeepSeek时刻。
(作者为北京航空航天大学人工智能学院副教授)