小模型路线图来了!苹果弄清楚了“蒸馏Scaling Law”
创始人
2025-02-19 17:20:49

来源:市场资讯

来源:华尔街见闻 赵颖

苹果研究发现,多次“蒸馏”更具优势,“教师”模型的性能比大小更重要。更强大的“教师”(大模型)有时会产生更弱的“学生”(小模型),两者“能力差距”过大时反而不利于蒸馏,换句话说需要有合适的教师才能让学习发生。

近期AI领域“蒸馏”这一概念火热,苹果公司近期在人工智能领域的研究成果,为蒸馏以及小模型的训练提供了新的思路。

据媒体周二报道,通过深入分析“蒸馏”(Distillation)技术的Scaling Law,苹果的研究人员不仅揭示了何时应该采用蒸馏、何时应该采用微调,还阐明了蒸馏技术在当前AI发展趋势中的重要性。

模型蒸馏是一种将大型、复杂的模型(“教师”模型)的知识迁移到小型、简单的模型(“学生”模型)的技术。其基本原理是,利用大模型生成的输出来训练小型模型。这种方法的核心优势在于,通过借鉴已具备强大能力的模型的输出,可以更容易地提升小模型的智能水平

研究发现,多次“蒸馏”更具优势,“教师”模型的性能比大小更重要。更强大的“教师”(大模型)有时会产生更弱的“学生”(小模型),两者“能力差距”过大时反而不利于蒸馏,换句话说需要有合适的教师才能让学习发生。

这一研究成果,有望为业界带来更高效、更低成本的小模型训练方案,并推动AI技术的进一步普及。

正如分析指出,分布式训练、蒸馏、联邦推理,以及现在的蒸馏Scaling Law,所有这些研究都指向一个基本事实:大规模、廉价、高效地推广强大AI系统所需的科学正在形成。AI系统正从少数大型计算专有孤岛中转移出来,以小模型或基于自身轨迹训练的模型形式进入世界。这是一个重要的趋势,将塑造整个领域。

什么是模型“蒸馏”?何时蒸馏,何时微调?

苹果的研究人员发表了一篇关于蒸馏Scaling Law的分析报告,为业界提供了一个理论基础,以判断何时应该从大型模型中蒸馏出一个小型模型,何时应该对小型模型进行监督微调。

苹果和牛津大学的研究人员引入了一种蒸馏缩放定律,该定律可以根据计算预算分布预测蒸馏模型的性能,对蒸馏进行了广泛的对照研究,学生和教师模型的参数范围从1.43亿到126亿,训练数据从几十亿token到5120亿token不等。

苹果的研究主要有以下几个关键发现:

  • 数据量与训练方法的关系: “在给定足够的学生计算资源或token的情况下,监督学习总是优于蒸馏。对于有限的token预算,蒸馏是有利的,然而,当有大量token可用时,监督学习优于蒸馏。”

  • 多次蒸馏的优势: 当已经存在一个“教师模型”,并计划训练多个学生模型,且这些模型相对较大时,从计算支出的角度来看,蒸馏通常效果最好。

  • 教师模型的性能比大小更重要。 教师模型的性能水平(交叉熵损失)比其大小更重要。

  • 选择与学生模型相近大小的教师模型: 最佳教师模型的大小通常会增长到略大于学生模型,然后趋于稳定。

值得一提的是,苹果提出的蒸馏Scaling Law 定义了学生模型的性能如何取决于教师的交叉熵损失、数据集大小和模型参数。该研究确定了两种幂律行为之间的过渡,其中学生的学习能力取决于教师的相对能力。该研究还解决了能力差距现象,这表明更强大的教师有时会产生更弱的学生。分析表明,这种差距是由于学习能力的差异,而不仅仅是模型大小。研究人员证明,当计算资源得到适当分配时,蒸馏在效率方面可以与传统的监督学习方法相媲美,甚至超过后者。

换句话说,你需要有合适的教师才能让学习发生。例如:一个5岁的孩子或许可以从高中数学老师那里学到一些东西,但他们很难从研究生数学导师那里学到任何东西,事实上可能会变得困惑。

⚠️
本网站信息内容及素材来源于网络采集或用户发布,如涉及侵权,请及时联系我们,发送链接至2697952338@QQ.COM,我们将第一时间进行核实与删除处理。

相关内容

热门资讯

南宁打造辐射东盟的人工智能OP... 【东盟专线】南宁打造辐射东盟的人工智能OPC创业集聚地 中新社南宁5月15日电 (记者 黄艳梅)“我...
李彦宏:我们正迎来一个超级个体... 在5月13日举办的Create2026百度AI开发者大会开幕式上,百度创始人李彦宏表示,在今天的智能...
瀑布边喝咖啡还能学手艺?济南起... 喝咖啡不稀奇,但在瀑布附近边喝边学做咖啡呢?在济南起步区的鹊华中新园,一家叫“一尺之间”的店铺给出了...
一线城市开始张贴合规码!没有人... 网约车焦点讯(文/彭小伟)为了让网约车合规化,上海打出了一系列组合拳,成为第一个张贴合规码的一线城市...
协作机器人龙头启动IPO 深交... 作为“协作机器人第一股”,越疆科技有望成为2025年新政落地后,港股企业回流A股深交所的首个落地标杆...
效率与流量,阿里AI的两张面孔... 傅蔚冈 5月13日,阿里巴巴发布2026财年第四季度财报。最引人注目的数字来自云业务:阿里云外部商...
微信挂号系统技术选型报告:智能... 一、开篇引言 随着“互联网+医疗健康”政策的持续深化,微信生态已成为连接医患的核心入口。根据国家卫健...
金价突发大跌,背后三大致命原因... 2026年5月15日,黄金市场迎来了一场毫无征兆的突发性大跳水,国内外贵金属价格全线崩盘,让很多高位...
对证券期货违法犯罪“零容忍”!... 交汇点讯 江苏作为经济大省,资本市场规模大,主体多,资本市场服务科技创新、先进制造、产业链升级需求迫...