Sand.ai重磅更新MagiAttention,正在定义分布式Attention性能新标杆

机器之心 2026-03-24 11:58
Sand.ai重磅更新MagiAttention,正在定义分布式Attention性能新标杆图1
机器之心编辑部

2025 年 4 月,Sand.ai 开源了 MagiAttention v1.0.0,定义了下一代分布式 Attention 的全新设计和系统框架。历经一年的深耕,今天 Sand.ai 正式发布:MagiAttention v1.1.0,以更成熟的原生算子组件,重新定义 Hopper 与 Blackwell 两代架构分布式 Attention 的性能上限


Sand.ai重磅更新MagiAttention,正在定义分布式Attention性能新标杆图2



Blackwell 新架构适配:释放下一代算力红利


为了在下一代硬件上延续 Flex-Flash-Attention (FFA) 的灵活性,研发团队引入了基于 Flash-Attention 4 的 FFA_FA4 后端,完成了对 Blackwell 架构的初步适配:



原生 Group Collective 原语:突破 RDMA 带宽瓶颈


跨机通信效率决定了分布式扩展上限,受 DeepEP 启发,Sand.ai 构建了原生 Group Collective 通信内核,彻底重塑了分布式 Attention 在节点内外的数据交换范式:



系统级协同优化:负载均衡与多阶段重叠


MagiAttention 的卓越性能不仅源于算子端的极致打磨,更得益于系统级的全栈协同调度和全场景通用的启发式算法:



实测表现与应用


目前,MagiAttention v1.1.0 已在 Magi-1 等大规模视频生成模型训练中得到实证,也在各大厂中被 “悄悄” 应用于多模态大模型训练。为了验证 MagiAttention 在真实长文训练中的表现,Sand.ai 也给出了细致的 Benchmark 结果:



Sand.ai重磅更新MagiAttention,正在定义分布式Attention性能新标杆图3

H100/B200 Varlen Causal 掩码下前反向的内核算子性能对比



Sand.ai重磅更新MagiAttention,正在定义分布式Attention性能新标杆图4

H100/B200 Varlen Causal 掩码下前反向的分布式性能对比


结语与未来展望


自去年 v1.0 发布以来,Sand.ai 收到的社区反馈让研发团队更加坚定:只有将底层算力压榨到极限,才能开启人工智能处理复杂多模态任务的新篇章。MagiAttention v1.1.0,是 Sand.ai 向这一愿景迈进的关键一步。Sand.ai 相信,强大的模型能力必须建立在普惠且极致的技术基石之上。


了解更多信息,欢迎访问 Sand.ai 官网:https://sand.ai


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
造火箭的辞职去放牛,彼得·蒂尔花20亿美元押注一个AI牛项圈
扎克伯格,给自己造了个「AI 老板」
扎克伯格正在打造自己的「AI分身」,并计划裁掉1.6万人
边缘AI趋势下,德州仪器升级MCU的策略
GPU不是AI的唯一解:英伟达用Groq LPU证明,推理赛道需要“另一条腿”
孙正义,投了AI芯片互连创企
紫光云发布两大行业垂类大模型,驱动工业与芯片双领域AI升级
国家数据局局长刘烈宏:Token成AI商业变现核心载体,中国日均调用量两年激增超千倍
苹果 WWDC26 定档 6 月 9 日,AI 是重点;OpenAI 施压谷歌,将 ChatGPT 列为默认搜索引擎;4 成美国人想买中国新能源车|极客早知道
Plaud 爆火后,YoooClaw 要改写 AI 硬件的剧本
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号