克雷西 henry 发自 凹非寺
量子位 | 公众号 QbitAI
英伟达GPU,被白帽黑客发现了严重漏洞。
通过一种名为GPUHammer的攻击方式,可以让GPU上跑的大模型,准确率从80%直接掉到0.02%,可以说是渣都不剩。
多伦多大学的研究人员形容,这种攻击就像在模型中引发灾难性的脑损伤。
目前,研究人员已经在英伟达RTX A6000上成功测试了这种攻击,但不排除其他型号也可能受到影响。

英伟达这边建议用户实施一项防御措施,但这种措施会让模型性能下降10%。
那么,这个漏洞到底是怎么一回事呢?
不是Bug,而是“物理攻击”
GPUHammer是首个成功攻击GPU显存的Rowhammer攻击。
它并不是通过代码篡改模型文件,而是直接对你的显存“物理动手”。
它属于Rowhammer攻击的一类:攻击者通过反复“敲击”内存某一行,引发相邻行中的比特翻转(从0变成1,从1变成0),从而悄悄篡改数据。
以前Rowhammer只能攻击CPU用的内存,现在,GPU也中招了。
在GPUHammer中,研究人员成功翻转了深度学习模型中的权重指数位。
比如FP16浮点数,只要翻转一个关键位,指数就能飙升16倍——模型准确率直接塌了。
在实验中,研究人员对AlexNet、VGG、ResNet等经典神经网络架构发起了攻击。

结果表明,即使是单个比特的翻转也可能导致模型性能的彻底崩溃。在受到攻击后模型的准确率就会从80%(BaseAcc)直接暴跌至0.1%(DegradedAcc.)。
在这种情况下,自动驾驶汽车可能会错误地识别交通标志,而在医疗AI情景中则可能发生误诊。
而在云机器学习平台或VDI设置等共享GPU环境中,恶意租户可能会对相邻的工作负载发起GPUHammer攻击,从而影响推理准确性或破坏缓存的模型参数。
可以说,GPUHammer对AI时代的基础设施有着毁灭性的打击。
那么,有没有什么办法可以阻止这东西呢?
为了回应GPUHammer的攻击,英伟达发布了一份安全通知。

英伟达提醒用户可以开启一项名为系统级纠错码(ECC)的保护措施。
ECC(纠错码)的原理是:在每段内存数据旁边,额外加几位“校验码”。一旦有比特翻转,比如0变成了1,ECC就能自动识别并纠正。
不过它只能修复单个比特错误,遇上双比特翻转,只能发出警告,没法补救。
此外,ECC还是一把“双刃剑”,在缓解GPUHammer的同时,还会导致GPU性能的衰退。
研究团队表示,系统一般默认禁用ECC,因为它存储在带外的单独内存区域中,启用它会导致6.5%的内存开销和减速。而在A6000GPU上启用ECC会导致12%内存带宽损失,机器学习应用速度会降低3%-10%。

别怕,你的游戏不会崩
不少网友在评论区,发出了疑问:GPUHammar不会影响我打游戏吧?

放心,研究团队表明,虽然目前尚未发现影响GPU比特翻转的根本原因,但不同的GPU配置、设计在受Rowhammer攻击时有着明显区别。
例如,RTX3080、A100等芯片就采用了与A6000 GDDR完全不同的DRAM架构,这些架构的存在使芯片避开了Rowhammer的影响。
而且,在未来的GPU的开发中,如果GPU集成了片上ECC(on-die ECC),就可以纠正单位翻转,并默认检测双位翻转。这就进一步使Rowhammer对GPU的攻击更加困难。
此外,在云端环境中,NVIDIA的MIG和机密计算(CC)技术通过内存隔离,能有效阻止多租户共享同一DRAM存储,从而防止Rowhammer类攻击生效。
不过,AI越强大,盘外招也越隐蔽,GPUHammer只是开始,未来模型的安全建设才刚刚开始。
参考链接:
[1]https://arstechnica.com/security/2025/07/nvidia-chips-become-the-first-gpus-to-fall-to-rowhammer-bit-flip-attacks/?comments-page=1#comments
[2]https://thehackernews.com/2025/07/gpuhammer-new-rowhammer-attack-variant.html
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —


🌟 点亮星标 🌟