【区角快讯】2026年2月9日,小米MiMo大模型团队正式发布HySparse——一种专为Agent时代设计的混合稀疏注意力架构。该方案采用“极少量全注意力层配合多层稀疏注意力层”的创新结构,旨在为超长上下文处理提供兼顾效率与精度的技术路径,同时为大模型注意力机制的优化落地开辟新方向。
伴随Agent类人工智能应用的迅猛增长,模型对超长文本的精准处理能力已成为基础刚需。当前行业面临的突出矛盾被业内称为“富贵病”:Agent需在海量上下文中稳定执行检索、逻辑推理及多轮任务规划,同时还须维持快速响应。挑战已从“能否完成计算”转向“是否承担得起计算成本”。
针对这一痛点,小米MiMo研发出HySparse架构。实测数据显示,在通用、数学、代码及中文四大类基准测试中,该架构在7B Dense与80B MoE两种模型规模下均实现性能稳步提升。尤为关键的是,在49层的80B-A3B MoE模型中,仅保留5层全注意力机制,不仅未削弱模型能力,反而有所增强,并将KV Cache存储需求压缩近90%。
RULER长文本评估进一步验证,即便全注意力层数极少,HySparse仍能可靠捕捉远距离关键信息,凸显其混合设计的鲁棒性。此架构系对MiMo-V2-Flash所用Hybrid SWA结构的深度升级,在保留原有稀疏窗口注意力基础上,引入全局高价值token信息补充,达成“兼容且互补”的效果,既提升性能,又未增加KV Cache占用或显著推高计算负担。
小米MiMo团队表示,后续将在更大规模模型中持续验证HySparse的潜力,并探索进一步削减全注意力层数的可行性,以推动超长上下文处理效率跃升,同时为学术界与工业界在混合稀疏注意力领域的研究提供实践参考。此举标志着大模型发展正从“算得出”迈向“算得值”的关键阶段。
小米MiMo推HySparse架构,破解Agent时代超长文本算力瓶颈
科技区角
2026-02-09 14:00
声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。