小米MiMo推HySparse架构，破解Agent时代超长文本算力瓶颈

【区角快讯】2026年2月9日，小米MiMo大模型团队正式发布HySparse——一种专为Agent时代设计的混合稀疏注意力架构。该方案采用“极少量全注意力层配合多层稀疏注意力层”的创新结构，旨在为超长上下文处理提供兼顾效率与精度的技术路径，同时为大模型注意力机制的优化落地开辟新方向。

伴随Agent类人工智能应用的迅猛增长，模型对超长文本的精准处理能力已成为基础刚需。当前行业面临的突出矛盾被业内称为“富贵病”：Agent需在海量上下文中稳定执行检索、逻辑推理及多轮任务规划，同时还须维持快速响应。挑战已从“能否完成计算”转向“是否承担得起计算成本”。

针对这一痛点，小米MiMo研发出HySparse架构。实测数据显示，在通用、数学、代码及中文四大类基准测试中，该架构在7B Dense与80B MoE两种模型规模下均实现性能稳步提升。尤为关键的是，在49层的80B-A3B MoE模型中，仅保留5层全注意力机制，不仅未削弱模型能力，反而有所增强，并将KV Cache存储需求压缩近90%。

RULER长文本评估进一步验证，即便全注意力层数极少，HySparse仍能可靠捕捉远距离关键信息，凸显其混合设计的鲁棒性。此架构系对MiMo-V2-Flash所用Hybrid SWA结构的深度升级，在保留原有稀疏窗口注意力基础上，引入全局高价值token信息补充，达成“兼容且互补”的效果，既提升性能，又未增加KV Cache占用或显著推高计算负担。

小米MiMo团队表示，后续将在更大规模模型中持续验证HySparse的潜力，并探索进一步削减全注意力层数的可行性，以推动超长上下文处理效率跃升，同时为学术界与工业界在混合稀疏注意力领域的研究提供实践参考。此举标志着大模型发展正从“算得出”迈向“算得值”的关键阶段。