模型被问的最多的一类问题是:“你是什么模型?你的开发者是谁?”,然而你有时候并不能得到准确的答案,很多模型会自称是 GPT-4 或者 Claude,但实际上它们并不是。而造成这种问题的原因就是这些模型是用其他模型的数据“蒸馏(Distillation)”而来的。
最近中科大、北大、零一万物等六家机构发表了一篇论文《Distillation Quantification for Large Language Models》就是研究这些大语言模型蒸馏程度的。其中蒸馏程度最低的是 Claude、豆包(Doubao)和Gemini,其余模型或多或少都用到了蒸馏的数据。
(注:论文中将 GPT 作为了参考模型,所以不在列表中)
可能很多人对“蒸馏”还不够了解,模型蒸馏(model distillation)是一种将大型语言模型(LLMs)中的知识迁移至更小模型的技术,旨在构建资源高效且性能优异的模型。
如果说 Claude、豆包这样没蒸馏过的模型是师傅(大型、强大的教师模型),那么他们把做菜的流程和秘方(知识)传授给徒弟(体量更小、推理更快的学生模型),使徒弟也能烹制出近似的美味。这样,餐厅每天接待大量客人(处理成千上万的推理请求)时,就可以让徒弟先顶上去——既省时也省钱。
不过,“蒸馏”与“非蒸馏”各有利弊。
- 蒸馏模型
- 优点:体积小、速度快、成本低,容易大规模部署。
- 缺点:有时会模仿教师模型的回答习惯和视角,甚至失去“自我风格”,导致某些场景下的创造性或差异化不足。
- 非蒸馏模型(“原生”大模型)
- 优点:拥有更多参数、更完整的知识图谱,能够展现更高的上限性能,回答可能更有深度或创造性。
- 缺点:运行成本高、资源占用大,对硬件依赖度较高。
简单来说就是蒸馏模型速度快成本低但能力要弱于非蒸馏模型。所以现在处于领先地位的还是那些拥有非蒸馏模型的公司,之前就有传闻,说这些顶尖的模型研发公司,都会先把内部最庞大、最先进、但也最昂贵的大模型“藏”起来,让它做幕后“教授”,为外部用户提供的是经过它蒸馏、但同样性能不俗的“学生模型”。这样做有两个主要目的:一是减少大规模使用所带来的昂贵算力消耗;二是将先进大模型用于内部继续迭代和产生更强的训练数据,形成良性的自我升级循环。
蒸馏和非蒸馏技术上没有绝对好坏,从我们普通用户的角度来说,一方面希望模型能力越来越强,这就需要那些如GPT、Claude、豆包、Gemini等“非蒸馏”核心技术做支柱,让模型越来越强;另一方面又希望模型能便宜高效,这就需要从这些先进的模型中“蒸馏”出接近这些模型能力,但更快更便宜的小模型出来。
有兴趣的可以看看《Distillation Quantification for Large Language Models》这篇论文:网页链接
最近中科大、北大、零一万物等六家机构发表了一篇论文《Distillation Quantification for Large Language Models》就是研究这些大语言模型蒸馏程度的。其中蒸馏程度最低的是 Claude、豆包(Doubao)和Gemini,其余模型或多或少都用到了蒸馏的数据。
(注:论文中将 GPT 作为了参考模型,所以不在列表中)
可能很多人对“蒸馏”还不够了解,模型蒸馏(model distillation)是一种将大型语言模型(LLMs)中的知识迁移至更小模型的技术,旨在构建资源高效且性能优异的模型。
如果说 Claude、豆包这样没蒸馏过的模型是师傅(大型、强大的教师模型),那么他们把做菜的流程和秘方(知识)传授给徒弟(体量更小、推理更快的学生模型),使徒弟也能烹制出近似的美味。这样,餐厅每天接待大量客人(处理成千上万的推理请求)时,就可以让徒弟先顶上去——既省时也省钱。
不过,“蒸馏”与“非蒸馏”各有利弊。
- 蒸馏模型
- 优点:体积小、速度快、成本低,容易大规模部署。
- 缺点:有时会模仿教师模型的回答习惯和视角,甚至失去“自我风格”,导致某些场景下的创造性或差异化不足。
- 非蒸馏模型(“原生”大模型)
- 优点:拥有更多参数、更完整的知识图谱,能够展现更高的上限性能,回答可能更有深度或创造性。
- 缺点:运行成本高、资源占用大,对硬件依赖度较高。
简单来说就是蒸馏模型速度快成本低但能力要弱于非蒸馏模型。所以现在处于领先地位的还是那些拥有非蒸馏模型的公司,之前就有传闻,说这些顶尖的模型研发公司,都会先把内部最庞大、最先进、但也最昂贵的大模型“藏”起来,让它做幕后“教授”,为外部用户提供的是经过它蒸馏、但同样性能不俗的“学生模型”。这样做有两个主要目的:一是减少大规模使用所带来的昂贵算力消耗;二是将先进大模型用于内部继续迭代和产生更强的训练数据,形成良性的自我升级循环。
蒸馏和非蒸馏技术上没有绝对好坏,从我们普通用户的角度来说,一方面希望模型能力越来越强,这就需要那些如GPT、Claude、豆包、Gemini等“非蒸馏”核心技术做支柱,让模型越来越强;另一方面又希望模型能便宜高效,这就需要从这些先进的模型中“蒸馏”出接近这些模型能力,但更快更便宜的小模型出来。
有兴趣的可以看看《Distillation Quantification for Large Language Models》这篇论文:网页链接