啥是DeepSeek的蒸馏算法？早在康乾年间，国人就会了！

点击上方蓝字关注“尹哥聊基因”

最近微信改版，容易找不到尹哥的文章，大家记得把尹哥设为星标⭐️ 哦~

DeepSeek过年期间已经讲了7期，感觉把要想讲的要点都说完了。但还经常收到后台留言，问他为啥能成功，开源以及极致的性价比，尤其是用了蒸馏算法，将原来要上亿美金的大模型训练成本降低到了仅仅数百万美元。好了，下一个问题又来了，什么是蒸馏算法？

先看一个图，虽然不是那么恰当，但这个小猫钓鱼能够让你迅速理解为什么通过蒸馏算法可以显著降低训练成本。

网上一般对蒸馏算法的解读就两个例子。一个就是老师教学生，也就是其发明者辛顿讲过的“教师模型”“学生模型”。教师模型，也就是复杂模型，像经验丰富的老师，掌握大量知识，但运行成本高。简单模型像学生，通过学习老师的精华知识，变得高效且轻便。

第二个通常会用“浓缩咖啡”来讲。复杂模型像一杯复合口味咖啡，信息密集但复杂，像卡布奇诺、拿铁都是这类型的；蒸馏算法将其提炼为“浓缩咖啡”，类似于我就要咖啡因提神，所以简单模型保留了核心信息，去除了冗余。

我今天想从更为贴近国人习惯，也确实是大语言模型的提纯史实来讲，那就是《全唐诗》（清康熙四十四年，1705年）和《唐诗三百首》（乾隆二十九年，1764年）。《全唐诗》收录了唐代近5万首诗歌，体量庞大，内容涵盖广泛，但质量参差不齐，既有经典之作，也有平庸之作。《唐诗三百首》是从《全唐诗》中精选出的300余首经典作品，代表了唐代诗歌的最高水平，内容精炼，艺术价值极高。

《全唐诗》就类似之前的OpenAI，封闭，不开放，还是大部头，买一套还很贵。《唐诗三百首》则更像DeepSeek，不光开源，还便携，就这么一小本书，买不起自己抄一份，差不多也能实现。

讲到这，开源、便携、能流行，这个问题懂了。那新问题又来了，为什么看了《全唐诗》写出来的诗，可能还不如《唐诗三百首》的？

完全有可能。《全唐诗》体量大、信息丰富，但包含冗余和噪声，比如存在着大量的相对平庸之作，这些作品会干扰模型的学习。而《唐诗三百首》经过“蒸馏”后，保留了最精华的部分，去除了冗余和噪声，训练出的模型更容易学习到诗歌的精髓，比如说平仄的运用等等，能够更好地掌握诗歌的创作规律，生成更高质量的诗歌。

从《全唐诗》到《唐诗三百首》的类比，您应该能够理解到DeepSeek是如何从海量数据中提炼精华的逻辑。这不仅只是AI技术的突破，更体现了中国传统文化中“去粗取精”的智慧。

有人问我，DeepSeek这次的异军突起，相当于科技史上的哪一个事件呢？如果说互联网实现了信息平权，那这次以DeepSeek为代表的普惠性人工智能则实现了智能平权，它促进并带动了一大批寡头跟进、开放。这相当于蔡伦的造纸术、毕昇的活字印刷，再到古腾堡印刷机的发明，使得书籍、知识能够向大众普及。这是技术的突破，更是“去粗存精”东方智慧的突破，这是开源的胜利，更是“兼济天下”价值观的大获全胜！

— END —

啥是DeepSeek的蒸馏算法？早在康乾年间，国人就会了！

如何在Telegram上用粉丝宝黑客策略打造活跃的加密货币社区

Doge资讯

BTC资讯

ETH资讯

加密货币安全

加密货币空投

House Training: The Mindset And Approach You Must Take

House Training Products, Supplies and Equipment – A Buyers Guide

Training Puppy the First Week

Healthy Puppy Guide

Crate Training A Puppy – The Ultimate Expert Guide

House Training: Feeding Choices Make A Massive Difference

大白话说清楚DeepSeek的蒸馏技术到底是什么？

DeepSeek的“蒸馏模型”超越原创？美国要对“蒸馏技术”下手

DeepSeek：技术洞察与解析（深度好文）

从DeepSeek爆火看知识蒸馏：如何让小模型拥有大模型的智慧？

Deepseek为什么选择蒸馏模型？一文彻底搞懂大模型蒸馏技术

超火的DeepSeek使用了大模型蒸馏技术嘛?