关注我们 设为星标


EETOP
百万芯片工程师专业技术论坛
官方微信号
黑客发现发现了名为GPUHammer的漏洞——一种Rowhammer(行锤攻击)漏洞,可将英伟达显卡上AI模型的准确率降至接近零!
英伟达 AI “利器” 暗藏噩梦级漏洞
白帽黑客在英伟达 GPU 中发现了一个令人胆寒的漏洞,它可能给 AI 系统带来灾难性后果。这个被命名为 GPUHammer 的攻击可将模型准确率从稳定的 80% 骤降至仅 0.02%,使其基本失去效用。多伦多大学的研究人员将其比作 “给神经网络造成毁灭性脑损伤”。目前,该漏洞已在 RTX A6000 显卡上测试验证,但其他型号也可能面临风险。英伟达的建议是?开启一项防御功能 —— 但这可能导致系统性能下降至多 10%。让我们来剖析这场硬件噩梦。
这不是软件漏洞,而是物理层面的攻击
别再想着那些隐蔽的代码注入了:GPUHammer 是首个成功针对 GPU 内存的行锤(Rowhammer)攻击。行锤原理是通过反复 “锤击” 某一行内存,导致相邻行的比特位发生翻转(0 变 1 或 1 变 0),从而悄无声息地破坏数据。多年来,这种手段一直困扰着 CPU 内存,而如今 GPU 也成了攻击目标。在实验中,研究团队翻转了深度学习模型权重中的关键比特 —— 例如在 FP16 浮点数中,一次微调就可能让指数部分骤增 16 倍,直接导致性能崩盘。
他们在 AlexNet、VGG、ResNet 等经典模型上测试了该攻击,结果显示:哪怕只是单个比特翻转,都可能引发系统彻底崩溃,将准确率从 80% 砍至 0.1%。试想一下,自动驾驶汽车误读停车标志、医疗 AI 误诊病情 —— 这些场景都可能成为现实。在共享云环境或虚拟桌面中,恶意用户可能通过 “锤击” 干扰他人的工作负载,破坏推理过程或缓存参数。这对我们日益依赖的 AI 基础设施而言,无疑是沉重一击。
英伟达的解决方案:ECC 纠错登场,但代价不小
英伟达并未对该漏洞坐视不理,其已发布安全公告,敦促用户在支持的 GPU 上启用错误校正码(ECC)。ECC 通过为数据附加额外的校验位,可自动检测并修复单比特翻转;但对于双比特翻转,它只能发出警告而无法修复。问题在于:系统出厂时往往默认关闭 ECC,因为它会额外占用 6.5% 的内存并降低性能。以 A6000 为例,启用 ECC 后带宽将下降 12%,机器学习任务的速度会减慢 3%-10%。这是一场权衡:安全与速度,只能二选一。
游戏玩家可松口气,你的游戏体验不受影响
担心下一局《堡垒之夜》会受影响?放轻松,研究人员表示并非所有 GPU 都同等脆弱。配置与设计的差异会产生显著影响。例如,RTX 3080 和 A100 采用的 DRAM 架构可完全规避行锤攻击,这与 A6000 的 GDDR 架构不同。展望未来,搭载片上 ECC 的新一代 GPU 可能默认具备单比特自动纠错和双比特检测功能,这将大幅提升此类攻击的实施难度。
在云端,英伟达的多实例 GPU(MIG)和机密计算技术通过隔离内存,可阻断多租户环境下的漏洞利用。但随着 AI 能力不断增强,隐蔽的侧信道威胁也会随之进化。GPUHammer 只是模型安全漫长攻防战的序幕。
欢迎加入EETOP AI/GPU 等微信群

ADC 射频 Wifi 等芯片测试线下技术研讨会
(8月5日 苏州)
