5分钟AI小课堂 | 如何加速大模型推理速度?

英特尔中国 2025-10-28 16:09


在全新的“5分钟AI小课堂”系列中,我们将为大家介绍英特尔在AI技术方面的一些最新进展。


你是否曾和AI聊天机器人聊得正起劲,它却突然“陷入沉默”,回复总要卡顿一两秒?这些机器人是由大模型(LLM)驱动的,而目前大模型的核心挑战之一,当属推理速度慢。推理,指的是大模型收到问题后生成答案的过程,因为计算量过大、显存和带宽瓶颈、功耗和成本限制等原因,用户体验常常是AI应用“反应迟缓”。


推测解码(Speculative Decoding)是一种通过多词元预测,从而加速文本生成的方法,为LLM的提速提供了一种解决方案。想象一下,大模型像一位谨慎的作家,每写一个字都要深思熟虑,而“推测解码”则引入了一位聪明的“写作助理”(一个小模型)。助理负责快速预测和草拟多个词元,然后由大模型(主作家)进行审核并采纳,效率自然大大提升。


但传统的推测解码有个严格的门槛:助理和主作家必须使用同一套“词汇表”(即模型词汇),这让许多没有“亲兄弟”小模型的大模型无法享受加速福利。因此,这种技术在应用上不够灵活,难以被广泛采用。


最近,英特尔研究院与开源社区Hugging Face联手,发布了多项打破门槛,提升推理效率的创新方法,目标直指——让大模型提速!


5分钟AI小课堂 | 如何加速大模型推理速度?图1


5分钟AI小课堂 | 如何加速大模型推理速度?图2

1. 动态推测解码:基础提速,智能调控


链接:https://huggingface.co/blog/dynamic_speculation_lookahead


英特尔研究院和Hugging Face联合开发的“动态推测解码”新技术,是第一重加速引擎,已作为默认设置集成到Hugging Face Transformers 4.45.0版本中。它的聪明之处在于能动态调整“助理”草拟词句的数量,在不同任务下实现最优效率,最高可提升2.7倍速度,让响应更加流畅。


5分钟AI小课堂 | 如何加速大模型推理速度?图3

2. 通用辅助生成UAG:用任意小模型实现更快解码


链接:https://huggingface.co/blog/universal_assisted_generation


许多大语言模型缺乏可用于辅助生成的小模型。为此,英特尔研究院与Hugging Face合作开发了通用辅助生成(UAG)技术,该方法将辅助生成的范围扩展至任意模型家族的小型语言模型。该技术可实现解码器或混合专家模型的推理速度提升1.5至2.0倍,且几乎没有额外开销。


5分钟AI小课堂 | 如何加速大模型推理速度?图4

3. UAG-TLI:通用辅助生成技术的增强版


链接:https://huggingface.co/blog/jmamou/uag-tli


UAG-TLI技术,作为UAG的扩展,支持概率编码并兼容任意小型语言模型,可提供更强的加速效果。在前沿大模型上的实验表明,其加速效果最高可达2.5倍。UAG-TLI技术现已集成至Hugging Face Transformers 4.50.0版本的辅助生成(AG)功能中,让更强大的通用辅助生成技术更易于应用。


5分钟AI小课堂 | 如何加速大模型推理速度?图5

4. 突破“词汇表”限制:任意小模型可加速任意大模型


链接:https://newsroom.intel.com/artificial-intelligence/intel-weizmann-institute-speed-ai-with-speculative-decoding-advance


英特尔研究院和魏茨曼研究所(Weizmann Institute)研发的全新解码方法,使得任意小模型能加速任意大模型,无论二者之间的词汇表差异如何。这项创新为灵活部署LLM开辟了道路,开发者可将任意小型模型与大模型配对,从而跨平台优化推理速度与成本。在保证输出质量的前提下,该技术可实现最高2.8倍的推理速度提升,相关算法已集成至Hugging Face Transformers开源库。


这些创新意味着什么?


更高的灵活性

开发者可以像搭积木一样自由组合模型,不再受限于特定模型系列,优化部署策略。

更快的用户体验

AI应用的响应时间将大幅缩短,交互更加流畅自然。

更低的成本

提速意味着完成同样任务所需的计算资源和时间更少,直接降低了运营成本。


这些创新如何影响未来?


这些技术都已经开源,并集成在Hugging Face平台上,对开发者开放。随着这些技术的广泛应用,AI回复我们的速度将得到提升。无论是智能客服、内容创作还是编程辅助,延迟将不再是困扰。这不仅是技术的进步,更是人机交互体验的改进。


5分钟AI小课堂 | 如何加速大模型推理速度?图6

你期待哪个AI应用的

响应速度得到提升?

欢迎在评论区分享你的想法!


5分钟AI小课堂 | 如何加速大模型推理速度?图7
5分钟AI小课堂 | 如何加速大模型推理速度?图8


©英特尔公司,英特尔、英特尔logo及其它英特尔标识,是英特尔公司或其分支机构的商标。文中涉及的其它名称及品牌属于各自所有者资产。



/转载请注明出处/

5分钟AI小课堂 | 如何加速大模型推理速度?图9

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
AI编写芯片代码,时机已到?
LSTM之父Jürgen再突破,「赫胥黎-哥德尔机」让AI学会自己进化
AI不再「炫技」,淘宝要让技术解决用户每一个具体问题
马斯克的AI百科全书来了,拉踩维基百科,却被网友啪啪打脸
高通发布AI推理芯片,入局数据中心
上交所最强“守门人”:半导体大佬+AI新锐
你的Agent可能在“错误进化”!上海AI Lab&上交&普林斯顿 揭示自进化智能体失控风险
硬核分享:论坛详解如何用ADS Python API玩转AI射频设计
Excel新AI插件!华尔街「表哥表姐」对手来了
硅谷大佬带头弃用 OpenAI、“倒戈”Kimi K2!直呼“太便宜了”,白宫首位 AI 主管也劝不住
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号