5分钟AI小课堂 | 如何加速大模型推理速度？

在全新的“5分钟AI小课堂”系列中，我们将为大家介绍英特尔在AI技术方面的一些最新进展。

你是否曾和AI聊天机器人聊得正起劲，它却突然“陷入沉默”，回复总要卡顿一两秒？这些机器人是由大模型（LLM）驱动的，而目前大模型的核心挑战之一，当属推理速度慢。推理，指的是大模型收到问题后生成答案的过程，因为计算量过大、显存和带宽瓶颈、功耗和成本限制等原因，用户体验常常是AI应用“反应迟缓”。

推测解码（Speculative Decoding）是一种通过多词元预测，从而加速文本生成的方法，为LLM的提速提供了一种解决方案。想象一下，大模型像一位谨慎的作家，每写一个字都要深思熟虑，而“推测解码”则引入了一位聪明的“写作助理”（一个小模型）。助理负责快速预测和草拟多个词元，然后由大模型（主作家）进行审核并采纳，效率自然大大提升。

但传统的推测解码有个严格的门槛：助理和主作家必须使用同一套“词汇表”（即模型词汇），这让许多没有“亲兄弟”小模型的大模型无法享受加速福利。因此，这种技术在应用上不够灵活，难以被广泛采用。

最近，英特尔研究院与开源社区Hugging Face联手，发布了多项打破门槛，提升推理效率的创新方法，目标直指——让大模型提速！

1. 动态推测解码：基础提速，智能调控

链接：https://huggingface.co/blog/dynamic_speculation_lookahead

英特尔研究院和Hugging Face联合开发的“动态推测解码”新技术，是第一重加速引擎，已作为默认设置集成到Hugging Face Transformers 4.45.0版本中。它的聪明之处在于能动态调整“助理”草拟词句的数量，在不同任务下实现最优效率，最高可提升2.7倍速度，让响应更加流畅。

2. 通用辅助生成UAG：用任意小模型实现更快解码

链接：https://huggingface.co/blog/universal_assisted_generation

许多大语言模型缺乏可用于辅助生成的小模型。为此，英特尔研究院与Hugging Face合作开发了通用辅助生成（UAG）技术，该方法将辅助生成的范围扩展至任意模型家族的小型语言模型。该技术可实现解码器或混合专家模型的推理速度提升1.5至2.0倍，且几乎没有额外开销。

3. UAG-TLI：通用辅助生成技术的增强版

链接：https://huggingface.co/blog/jmamou/uag-tli

UAG-TLI技术，作为UAG的扩展，支持概率编码并兼容任意小型语言模型，可提供更强的加速效果。在前沿大模型上的实验表明，其加速效果最高可达2.5倍。UAG-TLI技术现已集成至Hugging Face Transformers 4.50.0版本的辅助生成（AG）功能中，让更强大的通用辅助生成技术更易于应用。

4. 突破“词汇表”限制：任意小模型可加速任意大模型

链接：https://newsroom.intel.com/artificial-intelligence/intel-weizmann-institute-speed-ai-with-speculative-decoding-advance

英特尔研究院和魏茨曼研究所（Weizmann Institute）研发的全新解码方法，使得任意小模型能加速任意大模型，无论二者之间的词汇表差异如何。这项创新为灵活部署LLM开辟了道路，开发者可将任意小型模型与大模型配对，从而跨平台优化推理速度与成本。在保证输出质量的前提下，该技术可实现最高2.8倍的推理速度提升，相关算法已集成至Hugging Face Transformers开源库。

这些创新意味着什么？

更高的灵活性

开发者可以像搭积木一样自由组合模型，不再受限于特定模型系列，优化部署策略。

更快的用户体验

AI应用的响应时间将大幅缩短，交互更加流畅自然。

更低的成本

提速意味着完成同样任务所需的计算资源和时间更少，直接降低了运营成本。

这些创新如何影响未来？

这些技术都已经开源，并集成在Hugging Face平台上，对开发者开放。随着这些技术的广泛应用，AI回复我们的速度将得到提升。无论是智能客服、内容创作还是编程辅助，延迟将不再是困扰。这不仅是技术的进步，更是人机交互体验的改进。