FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?

机器之心 2025-08-26 17:37
机器之心报道

编辑:Panda


在正在举办的半导体行业会议 Hot Chips 2025 上,TogetherAI 首席科学家 Tri Dao 公布了 FlashAttention-4


资讯配图


据介绍,在 Backwell 上,FlashAttention-4 的速度比英伟达 cuDNN 库中的注意力核实现快可达 22%!


资讯配图


在这个新版本的 FlashAttention 中,Tri Dao 团队实现了两项关键的算法改进。


一、它使用了一种新的在线 softmax 算法,可跳过了 90% 的输出 rescaling。


二、为了更好地将 softmax 计算与张量核计算重叠,它使用了指数 (MUFU.EX2) 的软件模拟来提高吞吐量。


此外,FlashAttention-4 使用的是 CUTLASS CuTe Python DSL,其移植到 ROCm HIP 的难度要高出 10 倍,而 CUDA C++ 移植到 ROCm HIP 则更容易。


有意思的是,Tri Dao 还宣布,在执行 A@B+C 计算时,对于 Blackwell 上在归约维度 K 较小的计算场景中,他使用 CUTLASS CuTe-DSL 编写的核(kernel)比英伟达最新的 cuBLAS 13.0 库快不少。而在标准矩阵算法 A@B 时,两者速度总体是相当的。


资讯配图


资讯配图

资讯配图


据介绍,他的核通过使用两个累积缓冲区来重叠 epilogue,从而击败了 cuBLAS。


Semi Analysis 表示,像 Tri Dao 这样的开发者是 CUDA 护城河的核心优势之一,因为 Tri Dao 只使用英伟达 GPU,并将其大部分核开源给其他英伟达开发者群体。Tri Dao 等研究者均不使用 ROCm AMD GPU 或 Trainium 芯片。


这对于 AMD 等来说可不是好消息,假如 AMD 希望 Tri Dao 和他的团队在 ROCm 上实现算法突破。那么,它就应该为 TogetherAI GPU 云服务上的 AMD GPU 提供优惠支持。Semi Analysis 分析说:「谷歌为 Noam Shazeer 支付了 27 亿美元,Zucc 为 OpenAI 工程师支付了 1 亿美元,AMD 拥有足够的现金,可以为 TogetherAI/Tri Dao 支付 5000 万美元来启动 ROCm 生态系统。」


FlashAttention 最早由 Tri Dao 等人在 2022 年提出,论文标题为《FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness》。


资讯配图


论文地址:https://arxiv.org/pdf/2205.14135


其背景是传统的注意力机制因需生成 N×N 的注意力矩阵,在序列长度 N 增长时引发二次的(quadratic)时间和内存开销。


而 FlashAttention 强调「IO-awareness」,不再将注意力矩阵完整载入,而是通过「tiling+softmax rescaling」策略,将数据块临时存入高速缓存(SRAM),在内部积累,再写回高带宽内存(HBM),避免了大量读写开销,内存复杂度得到显著降低 —— 从 O (N²) 降至 O (N)。


资讯配图


如图所示,在左图中,FlashAttention 使用了 tiling 技术来防止在(相对较慢的)GPU HBM 上执行很大的 𝑁 × 𝑁 注意力矩阵(虚线框)。在外层循环(红色箭头)中,FlashAttention 循环遍历 K 和 V 矩阵的块,并将其加载到快速片上 SRAM 中。在每个块中,FlashAttention 循环遍历 Q 矩阵的块(蓝色箭头),将其加载到 SRAM 中,并将注意力计算的输出写回 HBM。


在右图中,可以看到相比 GPT-2 上 PyTorch 注意力实现,FlashAttention 速度更快 ——FlashAttention 无需将大型 𝑁 × 𝑁 注意力矩阵读写到 HBM,从而将注意力计算速度提升了 7.6 倍。


整体上,初代 FlashAttention 带来的增益也很显著:在 BERT-large(序列长度 512)中相比 MLPerf 基线提升训练速度约 15%;GPT-2(序列长度 1K)提升约 3 倍;在 Long-Range Arena(序列长度 1K–4K)提升约 2.4 倍。


一年后,FlashAttention-2 问世,这一次,作者仅 Tri Dao 一人。顺带一提,他还在这一年的晚些时候与 Albert Gu 共同提出了 Mamba


资讯配图


论文地址:https://arxiv.org/pdf/2307.08691


其改进的焦点是:FlashAttention 已显著提升性能,但在 GPU 上仍存在低吞吐率的问题,仅能达到理论峰值很低的比例(约 25–40%)。


为此,Tri Dao 提出的解决策略包括:



资讯配图


结果,相比初代 FlashAttention,FlashAttention-2 速度提高约 2–4×;在 A100 GPU 上 FP16/BF16 可达到高至 230 TFLOPs/s,达 PyTorch 标准实现 9 倍速度提升。参阅机器之心报道《比标准 Attention 提速 5-9 倍,大模型都在用的 FlashAttention v2 来了》。


又一年,FlashAttention-3 诞生,这一次改进的重点是适配 Hopper 架构,异步与低精度。可以看到,Tri Dao 这一次的名字挂在最后。此时他虽然还继续在普林斯顿大学任教,但也同时已经是 Together AI 的首席科学家。


资讯配图


论文地址:https://arxiv.org/pdf/2407.08608


为了能加速在 Hopper GPU 上的注意力,FlashAttention-3 主要采用了三种技术:



FlashAttention-3 的速度是 FlashAttention-2 的 1.5-2.0 倍,高达 740 TFLOPS,即 H100 理论最大 FLOPS 利用率为 75%。使用 FP8,FlashAttention-3 的速度更是接近 1.2 PFLOPS。参阅机器之心报道《英伟达又赚到了!FlashAttention3 来了:H100 利用率飙升至 75%》。


现在,到了 2025 年,FlashAttention-4 准时到来,增加了对 Blackwell GPU 的原生支持——之前,想要在 Blackwell 上跑 FlashAttention,如果直接用开源仓库,常常会遇到编译错误、kernel 缺失或性能未优化的情况,可用的 Blackwell 加速主要是借助英伟达 Triton/cuDNN 的间接支持。


资讯配图

图源:https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/


此时,FlashAttention 的 GitHub 软件库已经积累了超过 1.91 万星。


资讯配图


项目地址:https://github.com/Dao-AILab/flash-attention


目前,Tri Dao 团队尚未发布 FlashAttention-4 的技术报告,更多细节还有待进一步揭晓。


参考链接

https://x.com/tri_dao/status/1960217005446791448

https://x.com/SemiAnalysis_/status/1960070677379133949

https://www.reddit.com/r/LocalLLaMA/comments/1mt9htu/flashattention_4_leak/


上海 AI Lab 26 届校招正式批开启!全岗位「无限复活甲」助你 offer 到手!
  • 投递 0 限制:简历可多次投递,心仪岗位大胆冲!

  • 100+ 职位,赛道超丰富,细分方向任你选!

  • 顶级科研平台与资源:超大规模算力集群,PB 级数据,亿级研发投入!
  • 清晰的职业发展通道:由实验室出题,为你链接顶尖高校、科研机构和行业企业!

扫描下方二维码即可投递简历。

资讯配图

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
GPU 英伟达
more
FlashAttention-4震撼来袭,原生支持Blackwell GPU,英伟达的护城河更深了?
英伟达H20停产,国产芯片堵住黄仁勋最后退路?
SK海力士英伟达HBM4合同9月或敲定
上半年狂赚10亿却备26亿存货,“中国小英伟达” 寒武纪还能涨多久?
2.5万一台!英伟达打造机器人“最强大脑”,性能提升750%,宇树已经用上…
快讯|上海电气推出自研人形机器人“溯元”,英伟达即将发布机器人“新大脑”技术,深圳坂田街道“机器人城管”柔性劝导摊贩
英伟达万亿市值最大变数出现|AI推理正从云端大举迁往边缘,苹果、高通在边缘侧引爆推理革命,云端vs边缘,谁是万亿赛道的终极答案?
英伟达B200在国内热度大减;浪潮、华勤有意布局二手服务器市场;揭露算力项目烂尾两个信号;GPU维保市场巨大丨算力情报局
英伟达发售机器人“最强大脑”,王兴兴、王鹤体验评价:提升运动速度及动作流畅性
Framework 推出新款 Laptop 16 笔记本:可轻松更换英伟达 RTX 5070 模块
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号