Arm正式取消Cortex命名!CPU向着高算力进发,Lumex CSS平台加持!

电子发烧友网 2025-09-17 07:00
电子发烧友网报道(文/黄晶晶)日前,在Arm Unlocked上海站技术论坛上,Arm重磅推出智能终端专属 Lumex CSS平台。Lumex CSS是一套专为旗舰级智能手机及下一代个人电脑加速其人工智能 (AI) 体验的先进计算平台。

CSS是Arm推出的计算子系统,针对不同的应用领域,提供包括Arm Neoverse 计算子系统、面向汽车行业的 ArmZena面向移动市场的 Arm Lumex面向PC市场的Niva以及面向物联网和边缘 AI的Orbis

Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU及系统 IP,不仅能助力生态伙伴更快将AI设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。

资讯配图

取消Cortex命名,Lumex平台CPU采用新的命名规则

Arm高级副总裁兼终端事业部总经理Chris Bergey表示,从Lumex 平台开始Arm引入新的命名规则。在这个新命名体系下,Lumex平台里面的CPU系列会以C1-Ultra、C1-Premium、C1-Pro以及C1-Nano等名称出现。这一命名体系清晰直观,能让整个行业和我们合作伙伴一目了然。同样的命名体系也应用于GPU产品线。例如,过去的 “Immortalis” 品牌,现统一采用 Lumex 体系下的Mali G1-Ultra 命名。关于面向汽车市场的 Zena CSS 平台,我们之前介绍过一些信息,但关于面向个人电脑的 Niva CSS 平台,我们尚未发布相关信息,敬请期待。

具体来看,搭载SME2的Armv9.3架构在CPU、GPU方面都有较大提升。Arm C1-Ultra CPU是Arm至今推出的性能最强的CPU。它能为设备带来出色的25% 性能提升,非常适合处理严苛的 AI 与计算工作负载。针对功耗敏感型的用例,经过能效优化的Arm C1-Pro CPU 能效提升幅度达到了可观的 12%。

资讯配图
借助SME2实现AI就绪端侧AI性能可提升达五倍,效率可提升显著的性能提升还包括语音识别延迟改善超4.7倍经典大语言模型任务性能提升4.7 倍生成式 AI 处理速度快2.8倍

GPU方面,Mali G1-Ultra 集性能与能效于一身,性能提升20% 的同时,能效也优化9%。图形和 AI 处理性能均实现两位数提升,光线追踪性能提升

合作伙伴无论是希望选用 RTL 交付形式的技术授权方式,还是采用接近生产就绪的实现方案,Lumex 均能提供充分的灵活性与定制化能力助力他们快速推进项目,大规模交付具备旗舰级加速性能的丰富AI体验

SME2较前代性能的提升

此次,Arm在所有新推出的CPU平台上全面启用第二代可伸缩矩阵扩展(SME2) 技术,为开发者带来更强的AI性能、更低的内存占用,并让端侧AI运行更加流畅尤其对于音频生成、摄像头推理、计算机视觉或聊天交互等对实时性要求严苛的应用而言。SME2的推出,标志着端 AI 开发迈入对开发者更为友好的新时代。

Arm终端事业部产品管理副总裁James McNiven解析,SME2是SME的新一代版本。它新增了更多指令集,可进一步提升性能和能效。它支持更小的数据类型——具体而言是2 bit4 bit,随着每年高度量化模型的不断增多,这类小数据类型在移动生态系统中的重要性正日益凸显。这也是我们重点将 SME2 整合到 Lumex 平台中的原因所在

最新的 Mali GPU 专为满足塑造下一代用户体验的混合工作负载而打造,并且受益于全新的光线追踪单元性能提升了两倍,将在生成式 AI、实时推理以及高保真游戏应用带来更优异的用户体验。

Arm预计到2030年SME和SME2将超30亿台设备新增超100亿TOPS的计算能力这将使端侧AI能力实现指数级飞跃,它将降低成本、减少延迟、增强隐私,整体提升用户体验。对开发者而言,这意味着他们能更迅速地将创新成果推向市场。

借助Lumex,我们得以助力下一代旗舰级智能手机的快速发展,让AI真正实现个性化。它具备实时适配能力,从核心到上层进行了全面优化,将平台级的智能体验置于你的掌心。

提供额外2到6 TOPS算力,CPU算力对端侧AI更友好

James McNiven表示,随着AI应用的日趋成熟,许多AI工作负载会从云端转向端侧。但云端与端侧的混合模式将会长期共存——云端 AI不会被取代,只是出于隐私考量,许多AI功能的运行需要同时满足三个条件:随时可用、低延迟交付,且必须在端侧运行。从功能提供者的视角来看,让用户设备承载尽可能多的 AI 工作负载以降低云端成本,亦是合理之举

因此,若某项工作负载需在端侧运行,开发者接下来要做的决策是让它在设备的哪个模块上运行。如今的移动端系统级芯片 (SoC) 非常复杂,它们均配备 CPU(大部分计算工作负载在此运行)与高性能 GPU(专门处理图形工作负载)。旗舰或高端智能手机还会搭载 NPU,作为 AI 工作负载的专用加速器。

资讯配图
从开发者的角度出发,他们大多需要较强的 CPU,从而进一步为工作负载提供更多灵活性。所以对于我们来说,重点就是不断的增强这些平台的计算体验。CPU 能够带来最大的灵活性,以实现整个生态系统普遍的性能。

那么,在引入SME2之后,CPUAI性能得到了怎样的提升呢?

进一步来说,根据具体的实现方和运行频率,第二代可伸缩矩阵扩展 (SME2) 技术可提供额外2到6 TOPS的算力。James McNiven解析,你可能会想才 6 TOPS而一些 NPU 已经超过 100 TOPS了。相比之下这听起来似乎并不突出。但实际情况是,对于低延迟、模型较小的AI任务,例如图像预处理、语音识别或实时语境助手,这级别的算力不仅足够,往往还绰绰有余。

更重要的是,当今许多 AI 工作负载受限于内存带宽,而非算力本身。因此,即使 NPU 拥有 100 TOPS 的算力,如果无法足够快速提供数据,这种峰值性能也难以被充分利用。通过启用 SME2 直接在 CPU 核心上运行,能够以低延迟访问缓存和系统内存,因此在处理这些规模小、频繁触发且对延迟敏感的任务时极为高效。因此,尽管 2 到 6 TOPS 的数值看似不高,但在实际应用中的效率和响应速度上,却是一次巨大的跃升。此外,SME2 还带来了可编程性优势。与功能固定的 NPU 不同,它能适应不断演进的各类 AI 模型和用例。

当然,NPU不会消失,GPU上的推理也不会消失。Arm 深信不同的计算单元有不同的长处,各自针对不同类型的 AI 工作负载进行优化NPU 擅长高吞吐量、大模型的推理任务,例如大语言模型 (LLM)、视觉 Transformer;GPU 更适合并行性强、与图形相关的 AI 任务,例如渲染加上 AI 图形优化升级;而搭载 SME2 的 CPU,则在需要与系统逻辑紧密集成的低延迟、持续在线的小模型任务中有卓越表现。

这些计算单元并非相互竞争,而是相辅相成。SME2 带来了全新的灵活性,尤其对那些希望AI特性能够在尽可能多的设备上运行的第三方开发者而言,这个灵活性意义重大,包括那些没有专用NPU的设备。因为每一台基于 Arm 架构的智能手机都具备 CPU,且在不久的将来,许多智能手机都将支持启用 SME2 的 CPU 核心。这意味着开发者可以依赖一个一致且广泛可用的 AI 加速层,无需担心硬件碎片化的问题。

在AI计算时代,Arm 的产品体系从 IP 到计算子系统 (CSS),再到“AI 优先”的计算平台。这项着眼“平台优先”的产品战略,整合了高性能 CPU/GPU 硬件、KleidiAI 软件工具及集成库,构建起“芯片-软件-工具”的端到端平台。凭借卓越的性能、能效和可扩展性,该计算平台能助力合作伙伴实现快速集成,降低研发复杂度与规模化风险,满足 AI 时代的多样化需求。

资讯配图

声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。


更多热点文章阅读


点击关注 星标我们



将我们设为星标,不错过每一次更新!
资讯配图

资讯配图喜欢就奖励一个“在看”吧!

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Arm
more
Arm服务器芯片,太猛了
华为鸿蒙HarmonyOS 6.0,尝鲜用户报名首次启动!
官宣新品!同川精密HarmoCore轻量化谐波关节来袭,近20家企业已排队等样!
颠覆!Arm发布全新Lumex CSS,重塑移动端AI计算体验
Arm高管侧面回应小米自研芯片!
Arm芯片,改变游戏规则
潮讯:AppleWatch新增“自适应电源”功能;嘎子哥账号被封;HarmonyOS 6取消“NEXT”后缀;智能眼镜出货量暴涨
Arm Lumex技术解析:当手机芯片以“AI为先”,CPU和GPU会是怎样?
30亿设备100亿TOPS算力!解密Arm CPU最强AI黑科技
Arm正式取消Cortex命名!CPU向着高算力进发,Lumex CSS平台加持!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号