Arm正式取消Cortex命名！CPU向着高算力进发，Lumex CSS平台加持！

电子发烧友网报道（文/黄晶晶）日前，在Arm Unlocked上海站技术论坛上，Arm重磅推出智能终端专属 Lumex CSS平台。Lumex CSS是一套专为旗舰级智能手机及下一代个人电脑加速其人工智能 (AI) 体验的先进计算平台。

CSS是Arm推出的计算子系统，针对不同的应用领域，提供包括Arm Neoverse 计算子系统、面向汽车行业的 ArmZena、面向移动市场的 Arm Lumex、面向PC市场的Niva，以及面向物联网和边缘 AI的Orbis。

Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU及系统 IP，不仅能助力生态伙伴更快将AI设备推向市场，还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。

取消Cortex命名，Lumex平台CPU采用新的命名规则

Arm高级副总裁兼终端事业部总经理Chris Bergey表示，从Lumex 平台开始，Arm引入新的命名规则。在这个新命名体系下，Lumex平台里面的CPU系列会以C1-Ultra、C1-Premium、C1-Pro以及C1-Nano等名称出现。这一命名体系清晰直观，能让整个行业和我们合作伙伴一目了然。同样的命名体系也应用于GPU产品线。例如，过去的 “Immortalis” 品牌，现统一采用 Lumex 体系下的Mali G1-Ultra 命名。关于面向汽车市场的 Zena CSS 平台，我们之前介绍过一些信息，但关于面向个人电脑的 Niva CSS 平台，我们尚未发布相关信息，敬请期待。

具体来看，搭载SME2的Armv9.3架构在CPU、GPU方面都有较大提升。Arm C1-Ultra CPU是Arm至今推出的性能最强的CPU。它能为设备带来出色的25% 性能提升，非常适合处理严苛的 AI 与计算工作负载。针对功耗敏感型的用例，经过能效优化的Arm C1-Pro CPU 能效提升幅度达到了可观的 12%。

借助SME2实现AI就绪端侧AI性能可提升达五倍，效率可提升三倍。显著的性能提升还包括语音识别延迟改善超4.7倍，经典大语言模型任务性能提升4.7 倍，生成式 AI 处理速度快2.8倍。

GPU方面，Mali G1-Ultra 集性能与能效于一身，性能提升20% 的同时，能效也优化9%。图形和 AI 处理性能均实现两位数提升，光线追踪性能提升两倍。

合作伙伴无论是希望选用 RTL 交付形式的技术授权方式，还是采用接近生产就绪的实现方案，Lumex 均能提供充分的灵活性与定制化能力，助力他们快速推进项目，大规模交付具备旗舰级加速性能的丰富AI体验。

SME2较前代性能的提升

此次，Arm在所有新推出的CPU平台上全面启用第二代可伸缩矩阵扩展(SME2) 技术，为开发者带来更强的AI性能、更低的内存占用，并让端侧AI运行更加流畅，尤其对于音频生成、摄像头推理、计算机视觉或聊天交互等对实时性要求严苛的应用而言。SME2的推出，标志着端侧 AI 开发迈入对开发者更为友好的新时代。

Arm终端事业部产品管理副总裁James McNiven解析，SME2是SME的新一代版本。它新增了更多指令集，可进一步提升性能和能效。它支持更小的数据类型——具体而言是2 bit和4 bit，随着每年高度量化模型的不断增多，这类小数据类型在移动生态系统中的重要性正日益凸显。这也是我们重点将 SME2 整合到 Lumex 平台中的原因所在。

最新的 Mali GPU 专为满足塑造下一代用户体验的混合工作负载而打造，并且受益于全新的光线追踪单元，性能提升了两倍，将在生成式 AI、实时推理以及高保真游戏应用带来更优异的用户体验。

Arm预计到2030年SME和SME2将为超30亿台设备新增超100亿TOPS的计算能力。这将使端侧AI能力实现指数级飞跃，它将降低成本、减少延迟、增强隐私，整体提升用户体验。对开发者而言，这意味着他们能更迅速地将创新成果推向市场。

借助Lumex，我们得以助力下一代旗舰级智能手机的快速发展，让AI真正实现个性化。它具备实时适配能力，从核心到上层进行了全面优化，能将平台级的智能体验置于你的掌心。

提供额外2到6 TOPS算力，CPU算力对端侧AI更友好

James McNiven表示，随着AI应用的日趋成熟，许多AI工作负载会从云端转向端侧。但云端与端侧的混合模式将会长期共存——云端 AI不会被取代，只是出于隐私考量，许多AI功能的运行需要同时满足三个条件：随时可用、低延迟交付，且必须在端侧运行。从功能提供者的视角来看，让用户设备承载尽可能多的 AI 工作负载以降低云端成本，亦是合理之举。

因此，若某项工作负载需在端侧运行，开发者接下来要做的决策是该让它在设备的哪个模块上运行。如今的移动端系统级芯片 (SoC) 非常复杂，它们均配备 CPU（大部分计算工作负载在此运行）与高性能 GPU（专门处理图形工作负载）。旗舰或高端智能手机还会搭载 NPU，作为 AI 工作负载的专用加速器。

从开发者的角度出发，他们大多需要较强的 CPU，从而进一步为工作负载提供更多灵活性。所以对于我们来说，重点就是不断的增强这些平台的计算体验。CPU 能够带来最大的灵活性，以实现整个生态系统普遍的性能。

那么，在引入SME2之后，CPU的AI性能得到了怎样的提升呢？

进一步来说，根据具体的实现方案和运行频率，第二代可伸缩矩阵扩展 (SME2) 在技术上可提供额外2到6 TOPS的算力。James McNiven解析，你可能会想“才 6 TOPS？而一些 NPU 已经超过 100 TOPS了。”相比之下这听起来似乎并不突出。但实际情况是，对于低延迟、模型较小的AI任务，例如图像预处理、语音识别或实时语境助手，这种级别的算力不仅足够，往往还绰绰有余。

更重要的是，当今许多 AI 工作负载受限于内存带宽，而非算力本身。因此，即使 NPU 拥有 100 TOPS 的算力，如果无法足够快速地提供数据，这种峰值性能也难以被充分利用。通过启用 SME2 直接在 CPU 核心上运行，能够以低延迟访问缓存和系统内存，因此在处理这些规模小、频繁触发且对延迟敏感的任务时极为高效。因此，尽管 2 到 6 TOPS 的数值看似不高，但在实际应用中的效率和响应速度上，却是一次巨大的跃升。此外，SME2 还带来了可编程性优势。与功能固定的 NPU 不同，它能适应不断演进的各类 AI 模型和用例。

当然，NPU不会消失，GPU上的推理也不会消失。Arm 深信不同的计算单元有不同的长处，各自针对不同类型的 AI 工作负载进行优化。NPU 擅长高吞吐量、大模型的推理任务，例如大语言模型 (LLM)、视觉 Transformer；GPU 更适合并行性强、与图形相关的 AI 任务，例如渲染加上 AI 图形优化升级；而搭载 SME2 的 CPU，则在需要与系统逻辑紧密集成的低延迟、持续在线的小模型任务中有卓越表现。

这些计算单元并非相互竞争，而是相辅相成。SME2 带来了全新的灵活性，尤其对那些希望AI特性能够在尽可能多的设备上运行的第三方开发者而言，这个灵活性意义重大，包括那些没有专用NPU的设备。因为每一台基于 Arm 架构的智能手机都具备 CPU，且在不久的将来，许多智能手机都将支持启用 SME2 的 CPU 核心。这意味着开发者可以依赖一个一致且广泛可用的 AI 加速层，无需担心硬件碎片化的问题。

在AI计算时代，Arm 的产品体系从 IP 到计算子系统 (CSS)，再到“AI 优先”的计算平台。这项着眼“平台优先”的产品战略，整合了高性能 CPU/GPU 硬件、KleidiAI 软件工具及集成库，构建起“芯片-软件-工具”的端到端平台。凭借卓越的性能、能效和可扩展性，该计算平台能助力合作伙伴实现快速集成，降低研发复杂度与规模化风险，满足 AI 时代的多样化需求。

资讯配图