文丨丁灵波

小扎重金挖人组建Meta超级智能实验室（MSL）后，能否带来一些AI技术突破备受外界关注。

今天，MSL团队署名的一篇技术论文在arxiv悄然上架，研究人员提出了一个高效的LLM解码框架REFRAG，将第一个token生成时间加快了约30倍，且性能没有任何下降，这项工作可以进一步扩展，以加速任何长上下文LLM应用程序的推理。

研究人员还在各种长上下文任务（包括RAG、多轮对话和长文档摘要）中对REFRAG进行了严格的验证，实验结果证实，REFRAG能够将LLM的上下文大小扩展16倍，与LLaMA模型和其他最先进的基准模型相比，REFRAG在不同上下文大小下均实现了显著的加速，且准确率没有损失。

LLM高效解码新机制

当前，大型语言模型（LLMs）已展现出卓越的能力，能够利用海量外部知识在多轮对话及智能体应用（如检索增强生成RAG）中优化响应质量，然而，在 “知识丰富度”与“系统效率”之间存在一种根本性的权衡矛盾。

已有研究表明，为上下文学习增加提示词（prompt）长度会导致推理阶段的延迟升高和内存消耗增加，更长的提示词需要为键值（KV）缓存分配更多内存，且内存需求随提示词长度呈线性增长。

此外，首token生成时间延迟随提示词长度呈二次方增长，而迭代token生成时间延迟则呈线性增长。

因此，LLM的推理吞吐量会随上下文规模扩大而下降，这限制了其在网页级检索等对吞吐量和低延迟有高要求场景中的应用，开发能优化内存使用和推理延迟的新型模型架构，对于提升这些应用中上下文学习的实用性至关重要。

MSL团队提出了REFRAG，一种用于RAG中上下文高效解码的新型机制，REFRAG可显著降低解码阶段的延迟、首token生成时间（TTFT）和内存占用，且无需修改LLM架构或引入新的解码器参数。

论文对LLM解码过程进行了多项创新性改进工作：它不再使用检索段落中的token作为输入，而是利用预计算的压缩块嵌入（chunk embeddings）作为近似表示，并将这些嵌入直接输入解码器。这种方法具有三大核心优势：

缩短了解码器的输入长度，提升了token分配效率；
可复用检索阶段预计算的块嵌入，消除了冗余计算；
降低了注意力计算复杂度 —— 此时复杂度随块（chunk）数量呈二次方增长，而非随上下文token数量增长。

此外，REFRAG支持对任意位置的token块进行压缩，同时保留解码器的自回归特性，从而可支持多轮对话及智能体应用。

在持续预训练以及多个真实世界长上下文应用（包括 RAG、结合 RAG 的多轮对话和长文档摘要）中，MSL团队对REFRAG的有效性进行了严格的实验验证。

结果令人惊喜：实现了30.75倍的TTFT加速，且无困惑度（perplexity）损失，较先前方法提升3.75倍；得益于压缩带来的上下文扩展，REFRAG在下游应用中的性能优于LLaMA模型，同时未增加延迟。

复旦校友领衔研究

公开资料显示，论文一作Xiaoqiang Lin目前是新加坡国立大学计算机科学四年级博士生，研究方向包括面向大型语言模型（LLMs）的数据中心式人工智能、数据选择/数据评估、提示词优化以及零阶优化。

他在2016年-2020年曾就读于复旦大学，此前还在蚂蚁集团担任机器学习工程师，2025年进入Meta实习至今已有7个月时间，担任研究科学家，专注于生成式人工智能（GenAI）领域的研究问题。

还有一位华裔论文合著者Bryan Kian Hsiang Low是新加坡国立大学计算机科学副教授、新加坡人工智能研究中心主任以及新加坡国立大学人工智能研究院副院长，研究方向包括概率与自动化机器学习、不确定性规划以及多智能体/机器人系统。

降低AI研发效率的“内斗”

相比较AI技术的创新探索，Meta最近的“内斗”更为吸引眼球，28岁华裔首席AI官Alexandr Wang与图灵奖得主Yann LeCun之间的代际冲突逐渐升温。

Meta进行的MSL重组，在内部拉开了一场资源分配权的争夺战。

Wang领导的TBD Lab获得了对FAIR（LeCun创立的基础研究部门）的实际控制权，包括论文发表审核权和人才调配权，这种架构调整打破了FAIR延续15年的学术自治传统——该实验室曾产出Llama 2等开源里程碑成果，但如今被重新定位为“TBD Lab 的创新引擎”，其研究成果需直接服务于商业化目标。

LeCun在X平台明确提出AI研究员的三大衡量标准（博士学位、论文发表、开源贡献），并强调“研究与工程是本质不同的领域”，这被广泛解读为对Wang的暗讽——后者仅发表4篇论文，被引数409次，缺乏学术界公认的突破性AI研究成果。

内斗之下，刚组建不久的MSL就面临人才流失危机，一份内部邮件显示，FAIR团队30%的资深研究员已提交离职申请，其中包括Llama 3核心开发者；而MSL团队的“天价雇佣兵”中，约20%在入职3个月内选择离开，部分人抱怨 “资源分配混乱” 和 “战略方向反复摇摆”。

高盛发布的一份报告指出，Meta AI部门的无序扩张和内耗导致研发效率相比竞争对手大大下降，每美元投入产出的专利数量同比减少41%。

真正的AI革命既需要“仰望星空”的学术坚守，也离不开“脚踏实地”的商业落地，但两者的平衡远非简单的组织架构调整和重金挖人那么简单，Meta想要在全球AI竞赛中重获技术优势，最关键的是先迈过这道坎。

-END-
如果您有什么想说的，欢迎在评论区留言讨论！
投稿或寻求报道，欢迎私信“投稿”，添加编辑微信。
【2025免费新年礼】：了解最新科技趋势分析、行业内部的独家见解、定期的互动讨论和知识分享、与行业专家的直接面对面交流的机会，领取100份AI科技商业研报合集，加群共同探讨与成长——
扫描下方二维码，添加头部科技晶总微信！