芝能智芯出品玩过手游的人都有个共同的经历。刚进游戏的前半小时,画面流畅、机身温热、电量还能撑一阵。半小时以后,流畅度开始掉,手机烫手,电池百分比往下跳的速度肉眼可见。
手机在重度图形负载面前,都会被三个东西拉低体验:功耗墙、发热墙、电池墙,挡住了移动端画质追赶桌面端的所有努力。
Arm 现在尝试用不同的Arm技术,在原有的体验上导入自己的看法,尝试给出自己的答案。

Part 1
先理解这三堵墙是怎么把移动端画质困住的。
◎ 游戏画面渲染,GPU要连续不断地工作。一个3A级别的场景,单帧里有数百个动态光源、复杂的几何体、实时光线追踪的反射和阴影。桌面显卡可以靠电源线无限喂电、靠巨大的散热风扇排热、靠独立显存吞数据。
◎ 手机没有这三样东西。手机的GPU在一个指甲盖大小的芯片上,和CPU、NPU、内存控制器共享一套供电和散热系统。功耗超过一定值,发热触发了温控阈值,系统强制降频。降频以后帧率直接腰斩。
◎ 在同样的功耗限制下,靠架构优化和制程进步硬挤出更多性能,每一代Mali GPU都在算力上有不小的提升,Immortalis-G715计算性能达到上一代两倍、G720通过延迟顶点着色降低40%带宽、G925带动两倍平铺器性能。
这条路正在接近尽头。制程的红利在变薄,架构优化的天花板在降低。要继续把桌面级的光影效果推进手机,靠堆晶体管的路已经走不通了。

Arm的新思路是把AI直接放进GPU的渲染管线里,统称为Arm神经技术(Arm Neural Technology)。
传统的图形渲染管线上,几何处理、光栅化、像素着色每一步做完输出给下一步,最后输出一帧完整画面。
AI加入以后,这条线被改写成了多条岔路。
◎ 第一条岔路是神经超级采样(NSS)和它的升级版神经超级采样与降噪(NSSD)。
GPU先以较低的分辨率渲染一帧画面。这样做的好处是,渲染的计算量大幅减少,功耗和发热随之降低。
然后,一个专用的神经网络模型把低分辨率画面超分到目标分辨率,同时去除光线追踪产生的噪点。
最终输出给屏幕的画面,肉眼看到的清晰度和细节,和全分辨率直接渲染几乎没有区别。
◎ 第二条岔路是神经帧率提升(NFRU)。
GPU渲染30帧,NFRU在两帧之间插入一帧由神经网络生成的中间帧,输出60帧。30帧到60帧的跃升,不需要多跑一倍的GPU负载。
这两条岔路在逻辑上是连接的。NSSD降低的是单帧的渲染成本,NFRU翻倍的是帧率。两个技术叠加,同一个GPU能在同样的功耗下输出更流畅、更细腻的画面。
Arm边缘AI事业部执行副总裁Chris Bergey有一句话能很好地概括这个思路的转变:"未来的移动图形技术不会只由运行更快的GPU来定义,而是通过图形计算与神经计算的集成,在固定功耗预算内打造更丰富的体验。"

不降低功耗来妥协画质,也不提高功耗来换取画质,在给定的功耗里,用AI把每一瓦电换出来的像素质量做到最大化。
Part 2
Arm神经技术对开发者工作流的影响,比多了几个光线追踪场景更值得关注。
传统手游开发里,光照烘焙是整个美术流程中占比极高的环节。光照师要把场景里的所有静态光源效果预先"烘"到纹理贴图上。烘一次要好几个小时,发现效果不对,调好参数重新烘。一个关卡的灯光调试,吃掉美术团队一到两周的工期是常态。

虚幻引擎5的MegaLights技术直接废掉了这个流程。场景里所有光源都是动态的、实时的,光照效果在编辑器里直接预览,不需要烘焙。数百个可移动光源在同一个场景里任意摆放,实时光线追踪阴影实时呈现。
MegaLights在桌面端跑得顺理成章。桌面显卡吃得下这个负载。但在手机端,以前从来没有人能把MegaLights跑通。功耗根本撑不住。Arm用NSSD和NFRU的组合方案,让这件事在手机上成为了可能。生成的《光影新生》手游是首款搭载UE5 MegaLights的移动端游戏。
Sumo Digital联席CEO兼COO Gary Dunn的表述很直接: "神经技术能够显著拓宽手游的发展边界,启用MegaLights和光线追踪功能,即使在主机平台中这两项技术的落地案例都仍属少见,更不必说移动端。这将彻底转变游戏工作室的开发思路。"
对于游戏开发团队,一个17人的小团队用18个月做出了以前在手机上根本不可能做出的画质水准。光照烘焙的工期被整个砍掉了,光照师不再是一道必经的门槛。小团队把原本用在烘焙和调试上的时间省下来做叙事和美术创意本身。

Arm今年下半年会推出面向移动端的Arm CSS(计算子系统),其中新一代Mali GPU里将内置专用的神经加速器。这件事放在五年前是不可想象的。
2019年NPU刚出现在手机SoC上,那时候AI和图形是两套彼此独立的功能。
AI管拍照和语音,图形管游戏渲染。两条线在各自的芯片模块上独立发展。
2026年,Arm把这两条线并在了一起。神经加速器不是一个独立的NPU挂在GPU旁边,它是GPU渲染管线内的一个功能性单元。图形任务和AI推理使用同一套硬件、同一套功耗预算。手机芯片正在从"各模块拼板"走向"AI定义架构"。
以前的手机SoC是CPU管计算、GPU管图形、NPU管AI、ISP管拍照。现在AI开始渗透到每一个模块的内部:GPU用AI重建画面、ISP用AI优化成像、音频用AI降噪。
芯片的设计逻辑从"把不同功能模块拼在一起"变成了"把AI能力作为底层资源分配给各功能模块"。
未来的图形世界里,GPU算力管的是"物理正确的粗略画面",神经加速器管的是"人眼看起来完美的最终画面"。两者分工协作,哪个都少不了。
这次Arm发布的真正分量就在这里。Mali GPU的性能迭代是重要的,在GPU里塞一个神经加速器,重新定义了这个行业对"移动端图形能力"的衡量标准。
以后评判一颗手机GPU,不是只看它跑分跑了多少帧,还要看它在同样的功耗下用AI做了多少帧。