欧博allbetDeepSeek展示企业模型蒸馏技术应用机遇

文章正文
发布时间:2025-08-09 18:10

模型蒸馏是Gartner 2025年人工智能技术成熟度曲线中已达到"启发阶段"成熟度水平的技术趋势之一。

虽然今年年初中国的DeepSeek展示了如何使用模型蒸馏来训练能够与OpenAI模型竞争的大语言模型,欧博allbet使这项技术重新受到关注,但这并非新技术发展。Gartner高级总监分析师Haritha Khandabattu表示:"我实际上在2017年就在研究模型蒸馏了。"

事实上,这项技术可以追溯到2006年康奈尔大学Cristian Bucila、Rich Caruana和Alexandru Niculescu-Mizil发表的模型压缩论文。九年后的2015年,康奈尔大学的Geoffery Hinton、Oriol Vinyals和Jeff Dean在《神经网络知识蒸馏》论文中使用"蒸馏"一词来描述提升AI模型性能的技术。

尽管Gartner不认为这是新的技术发展,但Khandabattu表示:"模型蒸馏技术得到了重新强调。基础模型需要大量计算资源且运行成本极其昂贵,企业开始询问如何以10%的成本获得80%的性能。"

她表示,DeepSeek在过去6到12个月中引发了定价下降趋势。但Khandabattu建议CIO们不要只是适应这些价格变化,而应该"规划用例并优先考虑,预期训练和推理成本将继续下降"。

Khandabattu指出,即使是大型AI技术提供商也认识到模型蒸馏在实现更可部署、更可调节和更可治理的AI方面的用处,她补充说:"模型蒸馏终于获得了商业吸引力。"

她将模型蒸馏描述为创新与可扩展性之间的桥梁:"模型蒸馏释放了技术价值和可访问性。它提供更低的推理成本,IT基础设施费用也相对较低,这使得模型蒸馏对某些AI部署具有成本效益。"

但Khandabattu也指出,IT领导者需要考虑运行推理工作负载所需IT基础设施之外的其他成本。"CIO需要极其谨慎,认识到部署生成式AI应用的总成本不仅限于模型成本。"

她表示,还有工程成本和将AI系统与企业IT集成相关的成本,并补充说:"微调AI模型成本很高。如果模型提供商决定更改模型,那么你必须将基于旧模型构建的所有内容更改为新模型,这非常昂贵。"

除了模型蒸馏之外,她说:"随着今年AI投资保持强劲,人们更加强调使用AI实现运营可扩展性和实时智能。"

据Gartner称,这导致了从以生成式AI为中心焦点的逐步转向支持可持续AI交付的基础推动者,如AI就绪数据和AI智能体。

"尽管AI具有巨大的潜在商业价值,但它不会自发实现,"Khandabattu说。"成功将取决于与业务紧密结合的试点项目、主动的基础设施基准测试,以及AI团队与业务团队之间的协调,以创造切实的商业价值。"

在Gartner预测将在未来五年内实现主流采用的AI创新中,包括多模态AI和AI信任、风险与安全管理(TRiSM)。

多模态AI模型同时使用多种类型的数据进行训练,如图像、视频、音频和文本。TRiSM专注于支持企业所有AI用例政策的技术能力层,并帮助确保AI治理、可信性、公平性、安全性、可靠性、安全、隐私和数据保护。Gartner预测,这些发展的结合将实现更强大、创新和负责任的AI应用,改变企业和组织的运营方式。

Gartner还预计AI智能体距离成为主流至少还需要2到5年时间。

"要获得AI智能体的好处,组织需要确定最相关的业务环境和用例,这很有挑战性,因为没有两个AI智能体是相同的,每种情况都不同,"Khandabattu说。"尽管AI智能体将继续变得更加强大,但它们不能在每种情况下使用,因此使用很大程度上取决于当前情况的要求。"

Q&A

Q1:模型蒸馏技术是什么时候出现的?

A:模型蒸馏技术可以追溯到2006年康奈尔大学发表的模型压缩论文,2015年Geoffery Hinton等人正式使用"蒸馏"一词来描述这种提升AI模型性能的技术。虽然不是新技术,但最近因为DeepSeek的成功应用而重新受到关注。

Q2:企业为什么要使用模型蒸馏技术?

A:企业使用模型蒸馏技术主要是为了降低成本。基础模型需要大量计算资源且运行成本极其昂贵,而模型蒸馏可以帮助企业以10%的成本获得80%的性能,提供更低的推理成本和IT基础设施费用。

Q3:部署生成式AI应用除了模型成本还有哪些费用?

A:除了模型成本外,还包括工程成本、将AI系统与企业IT集成的成本、微调AI模型的成本等。特别是如果模型提供商更改模型,企业需要将基于旧模型构建的所有内容迁移到新模型,这会产生很高的费用。

首页
评论
分享
Top