preface

同学们,假期快乐。

过年期间,相信大家已经被国产的DeepSeek这款人工智能大模型刷屏,随着人工智能的迅猛发展,DeepSeek成为了一款炙手可热的大语言模型(LLM)。但许多同学对它的认识还停留在“聊天机器人”阶段,或误以为它能“无所不知”。那么,DeepSeek 真的如此神奇吗?大学生该如何正确认识和使用它?如果想从事 LLM 研究,又该如何入门?

今天,我们就来聊聊这些话题!



DeepSeek 到底是什么?

DeepSeek是一款由杭州深度求索人工智能基础技术研究有限公司开发的人工智能模型。它的英文名“DeepSeek”可以读作“深度”(Deep)和“探索”(Seek),寓意着通过深度学习技术探索未知的领域。这款基于Transformer架构的人工智能助手,具备自然语言理解与生成、多轮对话管理、跨领域知识整合及代码处理等核心能力,依托大规模预训练和持续学习机制,支持中英文等语言交互,能够辅助信息检索、学习研究、创意生成等场景。DeepSeek 的第一个开源模型于 2023 年 11 月发布,而最近火出圈的DeepSeek-v3和DeepSeek-R1是DeepSeek最新的两个大模型。DeepSeek 在一年的时间里持续发布新产品,如下图所示:

图1 DeepSeek模型进展

DeepSeek 的核心技术:

✅ Transformer 结构:深度学习领域的革命性模型,支持长文本理解和生成。

✅ 混合专家稀疏模型(MoE): 采取 “术业有专攻”理念,每次让若干个合适专家协作发挥各自能力,完成特定任务,具有更快的推理速度。

✅ 自回归语言建模:基于之前的文本预测下一个词,从而实现连贯的对话。

✅ 大规模训练:使用互联网公开数据训练,涵盖广泛的知识领域。

✅ 基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF):结合人类反馈,让模型回答更符合人类期望。

尽管DeepSeek模型仍然基于Transformer架构,并非颠覆性基础理论创新,但在语言模型的设计及其训练方式上,DeepSeek 有许多创新之处。

DeepSeek 的主要创新与贡献:

1. Multi-latent 注意力—— 通常情况下,LLM 是基于多头注意力机制(MHA)的Transformer 架构。DeepSeek 团队开发了一种 MHA 机制的变体——多头潜在注意力机制,显著降低了计算和存储成本,把显存占用降到了其他大模型的5%-13%,极大提升了模型运行效率。

2. GRPO 与可验证奖励——自从 OpenAI o1 发布以来,AI 社区一直在尝试复现其效果。由于 OpenAI 对其工作原理保持高度封闭,社区不得不探索各种不同的方法以实现类似 o1 的结果。有许多研究者尝试不同方法达到o1的性能但这些方法最终被证明不如最初预期的那么有前景。另一方面,DeepSeek 展示了一个非常简单的强化学习(RL)流程实际上可以实现类似 o1 的结果。更重要的是,他们开发了自己版本的 PPORL 算法,称为 GRPO,这种算法更高效且性能更优。

3. DualPipe—— DeepSeek使用FP8混合精度加速训练并减少GPU内存使用,使用DualPipe算法(即将前向和后向计算与通信阶段重叠以最大限度地减少计算资源闲置)提升训练效率,并进行了极致的内存优化。他们开发了一套完善的数据处理流程,着重于最小化数据冗余,同时保留数据的多样性。 

4. “纯”强化学习——DeepSeek 是全球首个通过纯强化学习技术,成功复现了 o1 的能力。在此之前,几乎没有任何团队能够成功地将强化学习应用到大规模语言模型的训练中。更值得注意的是,DeepSeek-R1 并未局限于规则驱动的数学模型或算法,而是成功地将强化学习带来的强推理能力泛化到其他领域,使得用户在实际使用过程中能够感受到其在写作等任务中的卓越表现。DeepSeek-R1 训练过程示意图如下图所示:

5. 小模型蒸馏——DeepSeek的火爆把模型蒸馏技术再一次推到技术讨论前沿。简单来说“模型蒸馏”就是让小模型模仿大模型回答问题的结果,来提升自身能力。比如,在对一篇文章分类时,大模型认为该文章以85%、10%和5%的概率分别属于正面、负面和中性等不同情感类别。小模型就从大模型输出的结果中认真思考,不断调整参数,以期望继承大模型能力,从而输出类似结果。

6. 开源!开源!开源!——与美国的OpenAI的ChatGPT不同。DeepSeek将自己的研究与创新无私公开到人工智能社区,DeepSeek的开源让全球的研究者能够快速建立起相关能力。如果说 ChatGPT 让全球看到了大模型的重要性,那么 DeepSeek 的开源则让全球研究者有机会亲身参与到强大推理能力的开发中。现在,每个人都可以利用这些进步来受益并改进自己的 AI 模型训练。



 如何正确认识 DeepSeek?

DeepSeek 并非全知全能

DeepSeek 并非全能,它只是基于概率预测回答内容。因此,它的回答可能是错误的,甚至会编造信息(即幻觉现象)。

DeepSeek 不是知识库

DeepSeek信息更新可能滞后,不能直接访问某些受限数据(如论文数据库、专利系统等)。

DeepSeek 也有偏见

由于训练数据来源于互联网,它可能会带有一定的社会偏见,因此在使用时要保持批判性思维,不盲目相信其结论。

正确心态:

把 DeepSeek 作为 辅助工具,而非权威答案的唯一来源。

对 AI 的输出保持 怀疑与验证,特别是涉及学术、科研或重要决策时。

DeepSeek 擅长总结与启发,但最终的学习成果还要依赖自己的思考与实践。



 如何正确使用 DeepSeek?

认知雷区预警:
1️不是搜索引擎 → 输出可能存在"幻觉"

2️不是解题神器 → 数学证明仍需人工验证
3️不是编程外挂 → 生成的代码需严格测试

正确姿势:
当作"智能草稿纸"激发灵感
当作"24小时TA"辅助理解概念
当作"结对编程伙伴"学习代码规范

学习场景✏️ :

用自然语言描述算法需求 → 生成伪代码模板

输入报错信息 → 获取debug建议树

上传论文摘要 → 生成文献综述框架


1. 明确你的需求

示例:「请用简单易懂的语言解释 Transformer 模型的原理」

避免:「告诉我 Transformer 是啥?」(描述太模糊)

2. 提供清晰的上下文

示例:「我是计算机学院大二学生,希望学习 PyTorch,能否给我一个 3 个月的学习计划?」

避免:「怎么学 PyTorch?」(DeepSeek 无法判断你的基础)

 3. 学会优化提示词(Prompt Engineering)

角色设定:「假设你是计算机视觉专家,请介绍 CNN」

格式要求:「用表格列出 DeepSeek 和 BERT 的对比」

迭代改进:「请用更学术的表达方式回答」

4. 结合其他工具提升效果

论文检索:Google Scholar、Arxiv

代码调试:GitHub Copilot、Hugging Face、Colab

数据分析:Pandas、Matplotlib

视频教程:  Bilibili

善用 DeepSeek = 高效学习 + 事半功倍!



 如何入门大语言模型研究?

如果你对大语言模型(LLM)感兴趣,希望从事相关研究,以下是推荐的学习路径:

基础阶段(适合大一、大二)

线性代数、概率论、微积分

Python 编程(掌握 NumPy、Pandas、Matplotlib)

机器学习基础(监督学习、无监督学习)

进阶阶段(适合大二、大三)

深度学习(PyTorch、TensorFlow)

Transformer 模型(BERT、GPT)

自然语言处理(NLP)技术(Tokenization、Attention 机制等)

推荐学习资源:

课程:Coursera「Deep Learning Specialization」

书籍:《深度学习》(Ian Goodfellow)、《动手学深度学习》

论文:《Attention Is All You Need》(Transformer 经典论文)

研究阶段(适合大四及以上)

阅读前沿论文(NeurIPS、ICLR、ACL、ICML)

研究大模型训练与优化(分布式训练、混合精度训练等)

探索 LLM 在行业中的应用(如自动代码生成、智能问答)


Tip:多做项目 + 多写代码 + 多看论文!



大语言模型的不足与改进方向

 尽管 DeepSeek 及其他大语言模型表现强大,但仍然存在以下问题:

1. 计算资源消耗巨大

训练千亿参数级别的模型需要数百张 GPU,普通高校和个人难以负担。

2. 生成内容的幻觉问题

可能会编造不存在的事实,降低信息可信度。

3. 可解释性较差

目前 LLM 的推理过程仍然是“黑箱”,难以追踪其决策过程。

 4. 存在偏见和伦理问题

训练数据来源广泛,可能包含种族、性别等偏见,影响公平性。

未来改进方向:

  • 更高效的模型架构(如稀疏激活模型,降低计算成本)

  • 结合知识图谱(增强事实性,提高答案可信度)

  • 强化可解释性研究(让模型决策更透明)

  • 更安全的 AI 伦理机制(减少社会偏见,提高安全性)



总结

DeepSeek 是一款强大的 AI 助手,但并非完美,需要理性使用(使用者的认知范围决定DeepSeek的能力上限)。

正确使用 DeepSeek,提升学习效率,提高编程、写作、科研能力。

想从事大模型研究? 扎实基础 + 深入 Transformer + 多实践项目!

关注 LLM 发展趋势,理解其局限性,探索更高效、更公平的大模型技术。

在AI发展过程中,美国OpenAI、Google、Meta等人工智能巨头也付出了许多努力或承担了更多责任,在为DeepSeek成功喝彩同时,我们也要为推动人工智能发展的所有努力而喝彩,每个人的努力均不可忽视。在这个大模型重塑世界的时代,计科院学子既要善用工具,更要理解本质。

记住:AI不会取代人类,但会用AI的人类会取代不用AI的人类! 

相关参考资料

https://arxiv.org/html/2412.14135v1

https://arxiv.org/pdf/2408.15664

DeepSeek-V3/DeepSeek_V3.pdf at main · deepseek-ai/DeepSeek-V3 · GitHub

https://developer.download.nvidia.cn/compute/cuda/docs/CUDA_Architecture_Overview.pdf

深入解构DeepSeek-R1!——微信公众号:AI大模型前沿

DeepSeek:迈向全社会分享的普遍智能——文汇.上观

【作者介绍】


一、个人简历













党佳晨,2024年毕业于中国科学院大学,计算机软件与理论专业博士。“图像处理与并行计算研究中心”(IPPC)团队成员,主要从事计算机视觉、图像处理、多模态等领域研究。近年来累积发表SCI、CCF 推荐期刊和会议7篇,参与中国科学院STS计划、国家重点研发计划课题等多项项目,担任ICIP、CVIU等期刊会议审稿人。曾获博士研究生国家奖学金,中国科学院大学奖学金,腾讯算法大赛50强,数字四川创新大赛20强等荣誉。


二、主要研究方向













计算机视觉、图像处理、多模态

图文:党佳晨

排版:史雯雯

责编:何钊宇

审核:王鑫