在全新的“5分钟AI小课堂”系列中,我们将为大家介绍英特尔在AI技术方面的一些最新进展。
你是否曾和AI聊天机器人聊得正起劲,它却突然“陷入沉默”,回复总要卡顿一两秒?这些机器人是由大模型(LLM)驱动的,而目前大模型的核心挑战之一,当属推理速度慢。推理,指的是大模型收到问题后生成答案的过程,因为计算量过大、显存和带宽瓶颈、功耗和成本限制等原因,用户体验常常是AI应用“反应迟缓”。
推测解码(Speculative Decoding)是一种通过多词元预测,从而加速文本生成的方法,为LLM的提速提供了一种解决方案。想象一下,大模型像一位谨慎的作家,每写一个字都要深思熟虑,而“推测解码”则引入了一位聪明的“写作助理”(一个小模型)。助理负责快速预测和草拟多个词元,然后由大模型(主作家)进行审核并采纳,效率自然大大提升。
但传统的推测解码有个严格的门槛:助理和主作家必须使用同一套“词汇表”(即模型词汇),这让许多没有“亲兄弟”小模型的大模型无法享受加速福利。因此,这种技术在应用上不够灵活,难以被广泛采用。
最近,英特尔研究院与开源社区Hugging Face联手,发布了多项打破门槛,提升推理效率的创新方法,目标直指——让大模型提速!


1. 动态推测解码:基础提速,智能调控
链接:https://huggingface.co/blog/dynamic_speculation_lookahead
英特尔研究院和Hugging Face联合开发的“动态推测解码”新技术,是第一重加速引擎,已作为默认设置集成到Hugging Face Transformers 4.45.0版本中。它的聪明之处在于能动态调整“助理”草拟词句的数量,在不同任务下实现最优效率,最高可提升2.7倍速度,让响应更加流畅。

2. 通用辅助生成UAG:用任意小模型实现更快解码
链接:https://huggingface.co/blog/universal_assisted_generation
许多大语言模型缺乏可用于辅助生成的小模型。为此,英特尔研究院与Hugging Face合作开发了通用辅助生成(UAG)技术,该方法将辅助生成的范围扩展至任意模型家族的小型语言模型。该技术可实现解码器或混合专家模型的推理速度提升1.5至2.0倍,且几乎没有额外开销。

3. UAG-TLI:通用辅助生成技术的增强版
链接:https://huggingface.co/blog/jmamou/uag-tli
UAG-TLI技术,作为UAG的扩展,支持概率编码并兼容任意小型语言模型,可提供更强的加速效果。在前沿大模型上的实验表明,其加速效果最高可达2.5倍。UAG-TLI技术现已集成至Hugging Face Transformers 4.50.0版本的辅助生成(AG)功能中,让更强大的通用辅助生成技术更易于应用。

4. 突破“词汇表”限制:任意小模型可加速任意大模型
链接:https://newsroom.intel.com/artificial-intelligence/intel-weizmann-institute-speed-ai-with-speculative-decoding-advance
英特尔研究院和魏茨曼研究所(Weizmann Institute)研发的全新解码方法,使得任意小模型能加速任意大模型,无论二者之间的词汇表差异如何。这项创新为灵活部署LLM开辟了道路,开发者可将任意小型模型与大模型配对,从而跨平台优化推理速度与成本。在保证输出质量的前提下,该技术可实现最高2.8倍的推理速度提升,相关算法已集成至Hugging Face Transformers开源库。
这些创新意味着什么?
更高的灵活性
开发者可以像搭积木一样自由组合模型,不再受限于特定模型系列,优化部署策略。
更快的用户体验
AI应用的响应时间将大幅缩短,交互更加流畅自然。
更低的成本
提速意味着完成同样任务所需的计算资源和时间更少,直接降低了运营成本。
这些创新如何影响未来?
这些技术都已经开源,并集成在Hugging Face平台上,对开发者开放。随着这些技术的广泛应用,AI回复我们的速度将得到提升。无论是智能客服、内容创作还是编程辅助,延迟将不再是困扰。这不仅是技术的进步,更是人机交互体验的改进。

你期待哪个AI应用的
响应速度得到提升?
欢迎在评论区分享你的想法!


©英特尔公司,英特尔、英特尔logo及其它英特尔标识,是英特尔公司或其分支机构的商标。文中涉及的其它名称及品牌属于各自所有者资产。
/转载请注明出处/
