论文选择 HF Papers,解读由 Intern-S1 生成
感觉最近大家都在疯狂卷「模型架构」,NVIDA,字节,上海 AI 实验室,Meta 等火力全开!什么模型架构将成为下一代明星架构,SGLang、vLLM、LMDeploy 框架层及 NVIDA、Ascend、沐曦等硬件层是不是都要为新的模型架构适配。
Fast-dLLM v2: Efficient Block-Diffusion LLM

论文简介:
由香港大学、NVIDIA和MIT等机构提出了Fast-dLLM v2,该工作设计了一种高效的块扩散语言模型(dLLM),通过创新的训练策略和推理优化,将预训练自回归模型(AR)转化为支持并行文本生成的扩散解码器。核心贡献包括:1)提出块扩散机制与互补掩码策略,使预训练AR模型仅需约1B token微调即可完成适配,相比Dream等全注意力扩散模型(需580B token)降低500倍数据需求;2)设计分层缓存机制,包含跨块级缓存和子块级DualCache,结合并行解码策略,实现块间上下文重用和块内并行生成,推理速度提升2.5倍;3)在1.5B/7B参数量的Qwen2.5-Instruct模型上验证,保持与AR基线相当的生成质量(如GSM8K准确率提升+5.2%),同时在数学推理、代码生成等多任务中超越现有扩散模型效率。实验表明,该方法在A100/H100上批量推理吞吐量提升1.5-1.8倍,为低延迟场景部署提供实用方案。
论文来源:hf
Hugging Face 投票数:44
论文链接:
https://hf.co/papers/2509.26328
PDF 中英文对照翻译:
https://paperscope.ai/hf/2509.26328
CoDA: Coding LM via Diffusion Adaptation

论文简介:
由 Salesforce AI Research 等机构提出了 CoDA,该工作开发了一款1.7B参数的轻量级扩散语言模型(DLM),通过高效的TPU训练流程实现代码生成任务的突破。CoDA 基于 Qwen3-1.7B 架构,创新性地将大规模扩散预训练与代码专项中期训练、指令微调相结合,采用渐进式掩码策略(包含不可掩码前缀、截断后缀和块掩码)提升模型对提示依赖、变长输入和代码填充任务的适应性。在 Humaneval 和 MBPP 基准测试中,CoDA-1.7B-Instruct 的 pass@1 得分达到54.3% 和47.2%,超越同类规模扩散模型并逼近7B参数量级的 Dream-7B-Instruct,同时推理延迟降低39.64%。研究团队开源了模型权重、评估工具链和TPU训练框架,首次验证了1.7B参数扩散模型在代码生成领域的可行性,为轻量化扩散模型研究提供了完整的技术路径。实验表明,通过置信度引导采样策略,CoDA 在512步扩散过程中即可实现性能饱和,为实际部署中的效率优化提供了关键依据。
论文来源:hf
Hugging Face 投票数:34
论文链接:
https://hf.co/papers/2510.03270
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.03270
Hybrid Architectures for Language Models: Systematic Analysis and Design Insights

论文简介:
由 FAIR at Meta、Meta 和 KAIST AI 等机构提出了 Hybrid Architectures for Language Models,该工作系统性对比了 inter-layer 和 intra-layer 两种混合架构策略,通过多维度评估揭示了混合模型在语言建模性能、长上下文处理、扩展性及训练推理效率上的显著优势。研究发现:inter-layer 混合通过交替堆叠 Transformer 和 Mamba 模块,在保持 Transformer 质量的同时利用 Mamba 的线性复杂度提升效率,最优 1:5 比例可平衡质量与吞吐量;intra-layer 混合在单层内并行融合两种机制,通过参数维度分配和模块位置优化实现更强的性能突破,其在 1B 参数规模下相比纯 Transformer 降低 2.9% 困惑度并提升 4% 少样本准确率。实验表明混合架构在长上下文检索任务中展现独特优势,通过 Mamba 的状态空间建模弥补 Transformer 的局部性缺陷,同时保持全局感知能力。研究还验证了混合模型与 MoE 的兼容性,并提出计算最优扩展策略:intra-hybrid 在 3B 参数规模下达到与 Transformer 和 Mamba 不同的扩展曲线,为高效模型设计提供新路径。该工作为混合架构的模块比例、位置排列、维度分配等关键设计问题提供了实践指导,证实了混合架构在质量-效率权衡中的帕累托前沿优势。
论文来源:hf
Hugging Face 投票数:32
论文链接:
https://hf.co/papers/2510.04800
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.04800
Cache-to-Cache: Direct Semantic Communication Between Large Language Models

论文简介:
由清华大学、上海人工智能实验室等机构提出了Cache-to-Cache(C2C)多大语言模型通信范式,该工作通过直接融合不同大语言模型的键值缓存(KV-Cache)实现语义级通信,解决了传统文本通信存在的信息损失和生成延迟问题。研究表明,C2C方法在保持相同缓存长度的前提下,通过语义增强使模型准确率提升8.5%-10.5%,相较于文本通信范式进一步提升3%-5%准确率,同时实现平均2倍的推理加速。研究团队通过oracle实验验证了KV-Cache的语义可转换性,发现不同模型对同一输入的缓存表征存在互补性,进而设计了包含投影模块、动态加权和可学习门控的缓存融合器。实验覆盖Qwen、Llama、Gemma等多系列模型组合,在MMLU、OpenBookQA等基准测试中均取得显著效果,尤其在强模型向弱模型的知识传递场景下表现突出。该方法突破了传统基于文本交互的多模型协作范式,为构建高效低延迟的大模型协作系统提供了新思路。
论文来源:hf
Hugging Face 投票数:81
论文链接:
https://hf.co/papers/2510.03215
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.03215
MemMamba: Rethinking Memory Patterns in State Space Model

论文简介:
由上海人工智能实验室、人民大学和上海财经大学等机构提出了MemMamba,该工作针对状态空间模型(SSM)在长序列建模中记忆衰减的核心问题,通过理论分析与架构创新实现了效率与记忆能力的突破。研究团队首先通过数学推导揭示了Mamba架构中信息贡献随时间步长和网络深度呈指数衰减的机制,并提出了水平-垂直记忆保真度框架(ETMF/ECLMF)量化token间语义传输和跨层信息耦合的双重衰减。在此基础上,MemMamba创新性地引入状态摘要机制与跨层跨token注意力,通过动态提取关键信息并建立长程交互通道,在保持线性复杂度的同时显著缓解了信息遗忘。
MemMamba的核心创新体现在三个方面:其一,受人类阅读笔记行为启发,设计了状态摘要模块(Note Block)对关键token进行压缩存储,构建有限容量的状态池;其二,在每层SSM更新后触发跨token注意力,通过双阈值机制动态补充遗忘信息;其三,每间隔固定层数激活跨层注意力,实现不同深度特征的交互增强。理论证明表明,该架构在时间与空间复杂度上均保持O(n)线性增长,同时通过误差边界分析确保了关键信息召回率超过90%。
实验验证覆盖语言建模(PG19-PPL)、稀疏检索(Passkey Retrieval)和跨文档推理(Document Retrieval)三大任务。在PG19数据集上,MemMamba在30k-60k超长序列中保持PPL稳定在17.33-18.25区间,而Mamba等基线模型在20k token后即出现性能崩溃。Passkey任务中,MemMamba在400k token时仍保持90%检索准确率,相较DeciMamba提升50%。跨文档任务下,面对200个干扰文档,MemMamba得分达0.24,显著优于Mamba的0分表现。效率层面,MemMamba相比Transformer实现48%推理加速,且参数规模仅200M时即可达到Transformer 1-2B参数的建模效果,展现了卓越的参数效率。这些结果验证了MemMamba在超长序列建模中突破性的记忆保持能力与计算效率平衡,为高效序列建模提供了新范式。
论文来源:hf
Hugging Face 投票数:57
论文链接:
https://hf.co/papers/2510.03279
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.03279
Artificial Hippocampus Networks for Efficient Long-Context Modeling

论文简介:
由字节跳动研究院等机构提出了Artificial Hippocampus Networks(AHNs),该工作受认知科学中多存储模型启发,创新性地将生物脑中海马体的信息整合机制引入神经网络,通过构建滑动窗口与压缩记忆的协同框架,有效解决了Transformer在长序列建模中面临的计算效率与记忆保真度的矛盾。AHNs在保持滑动窗口内无损记忆的同时,利用可学习的压缩模块将窗口外信息转化为固定维度的长期记忆,使模型在保持线性计算复杂度的前提下,实现了对历史信息的高效利用。实验表明,基于Mamba2、DeltaNet等架构实例化的AHN模型,在LV-Eval和InfiniteBench等超长序列基准测试中,相比全注意力模型在128k序列长度下可降低40.5%的计算量和74%的显存占用,同时将平均得分从4.41提升至5.88。特别在PG19数据集的57k token长文本测试中,AHN-GDN模型保持了稳定低困惑度,而传统模型在超出预训练长度后性能急剧下降。该框架通过自蒸馏训练策略,在仅增加0.4%参数量的情况下,实现了计算效率与模型性能的双重突破,为长文本处理、流媒体分析等场景提供了兼具效率与性能的解决方案。
论文来源:hf
Hugging Face 投票数:22
论文链接:
https://hf.co/papers/2510.07318
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.07318
NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Models under Data Constraints

论文简介:
由上海人工智能实验室、香港中文大学、清华大学等机构的研究人员提出了NaViL,该工作系统研究了数据约束下原生多模态大语言模型(MLLMs)的设计空间和扩展特性。通过对比预训练LLM初始化、混合专家架构(MoE)及视觉编码器结构,发现LLM预训练初始化能显著提升多模态数据收敛效率,MoE架构可增强异构数据处理能力而不增加激活参数,而视觉编码器的深度与宽度在宽泛范围内均能实现近似最优性能。进一步研究发现,LLM扩展遵循传统语言模型的缩放规律,但视觉编码器扩展收益受LLM容量限制,且最优视觉编码器尺寸与LLM参数量呈对数线性比例关系。基于此,团队提出了NaViL模型,采用2.4B激活参数(含0.6B视觉编码器)的架构,在600M多模态数据预训练后,其在MMVet、MMMU等14项多模态基准测试中超越现有原生MLLMs,并与使用300M蒸馏视觉编码器的组合式模型InternVL-2.5-2B性能相当。该研究揭示了原生MLLMs在数据效率和扩展性上的独特优势,为多模态模型设计提供了关键实践指导。
论文来源:hf
Hugging Face 投票数:17
论文链接:
https://hf.co/papers/2510.08565
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.08565
Native Hybrid Attention for Efficient Sequence Modeling

论文简介:
由清华大学、上海人工智能实验室等机构提出了Native Hybrid Attention (NHA),该工作通过统一的层内与层间混合架构,将线性注意力与滑动窗口注意力整合为单一的softmax操作。NHA采用线性RNN维护长期记忆槽,并与滑动窗口内的短期令牌动态拼接,通过单次softmax实现上下文感知的注意力分配,无需额外融合参数。通过调整滑动窗口大小,NHA可在纯线性模型与全注意力模型间平滑切换,保持所有层结构一致。实验表明,NHA在医疗问答、常识推理等任务上超越Transformer及混合基线,预训练LLM经NHA改造后在仅4层全注意力配置下即可达到竞争性准确率,同时推理速度提升显著。其chunkwise并行计算设计更实现线性复杂度扩展,为长序列建模提供高效解决方案。相关代码已开源。
论文来源:hf
Hugging Face 投票数:16
论文链接:
https://hf.co/papers/2510.07019
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.07019
OneFlow: Concurrent Mixed-Modal and Interleaved Generation with Edit Flows

论文简介:
由 FAIR at Meta 和 Univ. Grenoble Alpes 等机构提出了 OneFlow,该工作通过结合基于插入操作的 Edit Flow 和 Flow Matching 框架,实现了非自回归的多模态并发生成。OneFlow 支持可变长度的文本与图像交错生成,突破了传统自回归模型对严格生成顺序的限制,同时避免了扩散模型在多模态生成中的固定长度约束。其核心创新在于通过连续时间马尔可夫链实现文本令牌的动态插入,并利用流匹配技术同步生成图像潜变量,两者共享统一的 Transformer 主干网络。实验表明,从 1B 到 8B 参数规模,OneFlow 在图像生成(FID、CLIPScore)和理解任务(VQA)上均优于自回归基线,且训练 FLOPs 降低 50%。特别在混合模态预训练中,OneFlow 展现出更强的跨模态协同能力,相比顺序预训练在 VQA 和图像生成任务上分别提升 4% 和 1.5%。该模型还支持新颖的交错生成模式,可在文本生成过程中动态插入图像并同步优化,同时通过分类器无关引导(CFG)提升文本生成细节丰富度。与现有扩散模型相比,OneFlow 在保持生成质量的同时,显著减少了训练计算量,并在多模态任务上展现出更好的扩展性。
论文来源:hf
Hugging Face 投票数:10
论文链接:
https://hf.co/papers/2510.03506
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.03506
Reactive Transformer (RxT) -- Stateful Real-Time Processing for Event-Driven Reactive Language Models

论文简介:
由Reactive AI等机构提出了Reactive Transformer(RxT),该工作通过事件驱动范式革新了对话式AI架构。RxT针对传统Transformer在对话场景中状态缺失和计算复杂度高的核心痛点,设计了基于固定大小短期记忆(STM)的异步处理流程。其核心创新在于将对话轮次视为离散事件,通过生成解码器、内存编码器和内存注意力网络的协同工作,实现响应生成与内存更新的解耦:解码器基于当前查询和历史内存状态生成响应,内存组件则异步处理完整交互以更新STM,从而将对话总成本从传统LLM的O(N²·T)降至线性O(N·T)。该架构采用注意力机制实现内存读写,支持多种内存注意力变体(如自注意力、跨层注意力)和残差门控机制,确保信息选择性更新。实验显示,参数量仅26M的RxT-Alpha Micro模型在多轮对话任务中,困惑度(2.56)显著低于22M参数的LLM基线(4.37),且响应延迟恒定(0.06s vs 0.22s),验证了其在长对话场景下的效率与性能优势。该工作为开发具备持续对话能力的实时AI系统提供了新范式。
论文来源:hf
Hugging Face 投票数:21
论文链接:
https://hf.co/papers/2510.03561
PDF 中英文对照翻译:
https://paperscope.ai/hf/2510.03561