一文介绍DeepSeek的模型蒸馏和模型量化技术

1 关于DeepSeek

最近大火的DeepSeek给中国AI市场带来了很多热度，在DeepSeek的官网，也反复提及 “模型蒸馏” 技术。

大模型的模型蒸馏和模型量化是当前人工智能领域中重要的研究方向，它们对于提高模型的部署效率、降低资源消耗具有重要意义。

2 模型蒸馏(Model Distillation)

2.1 定义与原理

模型蒸馏是一种知识迁移的方法旨在将知识从一个大型的教师模型(Teacher Model)转移到一个较小的学生模型(Student Model)中。其基本思想是利用教师模型的输出、隐藏层特征或特征间相似度等作为额外的监督信号，来训练学生模型，以提升小模型的性能并在一定程度上取代大模型。学生模型可以在保持较高准确性和泛化能力的同时，减少参数数量和计算复杂度。

在自然语言处理任务中，对于各种复杂的任务，深度和大型预先训练的语言模型往往表现出色，但由于其巨大的规模可能会阻碍在实际中的应用。此时，模型蒸馏就可以发挥作用，将大模型的知识压缩到浅层模型中，提高模型的部署效率。

2.2 实现过

1. 训练教师模型：在大规模数据集上训练一个性能优秀的大模型作为教师模型，使其学习到丰富的特征和知识。
2. 设计学生模型：根据应用场景和资源限制，设计一个结构更简单、参数量更少的学生模型。
3. 生成软标签：使用训练好的教师模型对训练数据进行推理，得到输出的概率分布等作为软标签。
4. 训练学生模型：将软标签与原始的硬标签结合，设计合适的损失函数来训练学生模型，使学生模型模仿教师模型的输出行为。
5. 优化与调整：在训练过程中，通过调整学生模型的参数，最小化损失函数，使学生模型不断逼近教师模型的性能。

2.3 应用场景

1. 模型压缩与部署：将大模型知识蒸馏到小模型，便于在手机、物联网设备等资源受限的环境中部署。
2. 跨领域迁移学习：在医疗、金融等垂直领域，利用通用大模型蒸馏出适合特定领域的小模型。
3. 提升小模型性能：对于直接训练效果不佳的小模型，通过蒸馏可以借助大模型的知识提升性能。
4. 隐私与安全：可以用已训练的大模型生成合成数据或知识，再蒸馏到小模型，避免使用敏感数据。像不像数据库中的视图概念。

3 模型量化(Model Quantization)

3.1 定义与原理

模型量化是把模型中高精度的参数（如32位浮点数）转换为低精度的表示形式，如8位整数。原理是基于信息论，在一定精度损失可接受的范围内，用较少的数据位来表示模型参数，通过特定的量化算法和映射关系，将连续的浮点数映射到有限的整数集合，减少存储需求和计算成本。

3.2 实现过程

1. 确定量化策略：选择线性量化或非线性量化等量化方法，以及对称量化或非对称量化等方式。确定量化粒度，如Per-tensor、Per-channel、Per-group等。
2. 进行量化操作：训练后量化（PTQ）在模型训练完成后，对权重和激活值进行量化。量化感知训练（QAT）在模型训练过程中加入量化噪声，使模型适应低精度表示。混合精度训练结合不同精度的数据类型进行训练。
3. 评估与调整：对量化后的模型进行性能评估，根据结果调整量化参数或策略，以平衡精度和效率。

3.3 应用场景

1. 自然语言处理：加速文本分类、情感分析等任务的推理过程，减少模型在服务器端的存储和计算资源占用。
2. 计算机视觉：提高图像识别、目标检测等应用在移动设备和嵌入式设备上的响应速度，降低能耗。
3. 语音识别：优化语音识别系统，使其在智能音箱、手机等设备上能够更高效地运行，减少处理延迟。
4. 推荐系统：降低推荐模型的存储和计算成本，提高推荐效率，能够更快地为用户提供个性化推荐。

4 知识小结

模型蒸馏 是将教师模型知识迁移到学生模型，利用软标签指导学生模型学习，然后通过训练教师模型、设计学生模型、生成软标签、训练学生模型和优化调整来进行实现的；
模型量化 是把高精度参数转换为低精度表示，基于信息论用较少数据位表示模型参数，通过确定量化策略、进行量化操作、评估调整最终实现。
二者都在提升模型效率与应用范围上均发挥重要作用。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

保证100%免费

一文介绍DeepSeek的模型蒸馏和模型量化技术

1 关于DeepSeek

2 模型蒸馏(Model Distillation)

2.1 定义与原理

2.2 实现过

2.3 应用场景

3 模型量化(Model Quantization)

3.1 定义与原理

3.2 实现过程

3.3 应用场景

4 知识小结

如何学习大模型 AI ？

第一阶段（10天）：初阶应用

第二阶段（30天）：高阶应用

第三阶段（30天）：模型训练

第四阶段（20天）：商业闭环

如何在Telegram上用粉丝宝黑客策略打造活跃的加密货币社区

Doge资讯

BTC资讯

ETH资讯

加密货币安全

加密货币空投

Memory Recognition and Recall in User Interfaces

目标检测中的评价指标: Precision

责令召回,mandatory recall,音标,读音,翻译,英文例句,英语词典

图像评价常用指标（PSNR、SSIM、LPIPS 、IS、FID、Precision、Recall）

Meaningful Training with Virtual Reality

recall | Computersトピックの定義 | Computers

DeepSeek 火出圈，LM Studio 本地部署蒸馏量化模型教程速看！

深度解析 DeepSeek 的蒸馏技术.pdf

DeepSeek引爆AI，国产GPU集体撑腰

Unsloth微调DeepSeek

什么是DeepSeek

【DeepSeek】DeepSeek小模型蒸馏与本地部署深度解析DeepSeek小模型蒸馏与本地部署深度解析