DeepSeek模型蒸馏技术,让小模型也能“聪明”推理:DeepSeek团队深入探索了将R1的推理能力蒸馏到更小模型中的潜力,发现经过R1蒸馏的小模型在推理能力上实现了显著提升,甚至超过了在这些小模型上直接进行强化学习的效果,证明了R1学到的推理模式具有很强的通用性和可迁移性,能够通过蒸馏有效传递给其他模型。这些结论为业界提供了新的启示:对小模型而言,蒸馏优于直接强化学习,大模型学到的推理模式在蒸馏中得到了有效传递。

DeepSeek训练提效的原因主要包括:低精度计算、小参数量和高质量数据等。据DeepSeek的技术文档,该模型使用数据蒸馏技术(Distillation)生成的高质量数据提升了训练效率。数据蒸馏指的是通过一系列算法和策略,将原始的、复杂的数据进行去噪、降维、提炼等操作,从而得到更为精炼、有用的数据。

当下大型语言模型如 GPT-4 等凭借其强大的能力推动着各行业的创新。然而,这些模型动辄拥有数万亿参数,其计算成本高昂且资源消耗巨大。在实际应用场景中,尤其是对计算资源有限的设备和追求高效响应的系统而言,迫切需要一种既能保留模型性能又能降低资源需求的方法,模型蒸馏(Model Distillation)(知识蒸馏:大模型(LLM)中的模型压缩与知识转移技术)应运而生。它犹如一把钥匙,开启了通往高效人工智能应用的大门。

模型蒸馏(Model Distillation)是一种模型压缩和知识迁移的技术,旨在将一个大型、复杂且性能优异的教师模型(Teacher Model)中的知识传递给一个较小、计算效率更高的学生模型(Student Model),将复杂且大的模型作为Teacher,Student模型结构较为简单,用Teacher来辅助Student模型的训练,Teacher学习能力强,可以将它学到的知识迁移给学习能力相对弱的Student模型,以此来增强Student模型的泛化能力,复杂笨重但是效果好的Teacher模型不上线,就单纯是个导师角色,真正部署上线进行预测任务的是灵活轻巧的Student小模型。

其核心思想是利用教师模型输出的软标签(soft targets)—— 即概率分布而非硬标签(hard labels),来指导学生模型的训练。通过这种方式,学生模型不仅学习到数据的类别信息,还能够捕捉到类别之间的相似性和关系,从而提升其泛化能力。

该方法的优势在于能够在不显著损失性能的情况下,显著减少模型大小和计算需求,特别适用于资源受限的设备,如移动设备和嵌入式系统。

模型蒸馏通常包括以下几个步骤

训练教师模型(Teacher Model):首先训练一个性能优异但通常较为庞大的教师模型。教师模型可以是任何高性能的深度学习模型,如深层神经网络、卷积神经网络(CNN)、Transformer等。

生成软标签(Soft Targets):使用训练好的教师模型对训练数据进行预测,获得每个样本的概率分布。这些概率分布作为软标签,包含了类别之间的相对关系信息。

训练学生模型(Student Model):设计一个较小的学生模型,并使用软标签以及硬标签共同训练。训练过程中,通常采用一个损失函数的加权组合,例如,交叉熵损失(用于硬标签)与 Kullback-Leibler 散度损失(用于软标签)。

优化与调整:通过调整温度参数、损失函数权重等超参数,优化学生模型的性能,使其尽可能接近教师模型。

$神州泰岳(SZ300002)$ 早在2020年就开始了模型蒸馏的研究并取得专利(鼎富智能为神州泰岳子公司)

2020年由神州泰岳AI研究院与中科院深圳先进技术研究院合作推出的BERT-EMD相较于以前工作蒸馏BERT的方式,有效地解决了人工指定蒸馏学习层次对应关系的弊端,在GLUE Benckmark上,提出的知识蒸馏的方法不使用数据增强技术,6层模型有着12层BERT相当的结果,另外此方法不需要研究者手动指定层次映射关系,在GLUE Benckmark已超过其他蒸馏模型(如TinyBERT, BERT-PKD等)。链接

神州泰岳AI研究院成立于2016年,在人工智能技术方面拥有深厚积累

神州泰岳已成功打造了多个AI智能体(Agent),涵盖核心网运维、IP网络运维、故障监控等多个领域,并致力于推动其在高价值场景中的应用。链接

神州泰岳携AI生图利器UltraUI亮相AWS re:Invent 2024巡展

在近日举办的亚马逊云科技re:Invent 2024全国巡展北京站,神州泰岳云业务首席架构师、解决方案部总经理张雪冰向现场嘉宾分享了一款企业级AI生图利器——UltraUI。通过采用UltraUI,企业实现了从模型、工作流、设计应用到作品的一站式管理,管理员预设工作流与应用给设计师进行推理生图,推理节点采用队列管理优化资源使用,充分使用GPU时间降低空闲,从而大幅度节约成本。此外,生成的设计图集中存储在共享图库中,支持设计图的访问与下载权限控制,全面保障企业资产安全。链接

神州泰岳旗下鼎富智能还是少有的已经AI商业化落地的公司,为中国联通、鸿泰鼎石等公司单位提供人工智能解决方案。