电子发烧友网报道(文/黄晶晶)日前,在Arm Unlocked上海站技术论坛上,Arm重磅推出智能终端专属 Lumex CSS平台。Lumex CSS是一套专为旗舰级智能手机及下一代个人电脑加速其人工智能 (AI) 体验的先进计算平台。CSS是Arm推出的计算子系统,针对不同的应用领域,提供包括Arm Neoverse 计算子系统、面向汽车行业的 ArmZena、面向移动市场的 Arm Lumex、面向PC市场的Niva,以及面向物联网和边缘 AI的Orbis。Lumex CSS 平台集成了搭载第二代可伸缩矩阵扩展 (SME2) 技术的最高性能 Arm CPU、GPU及系统 IP,不仅能助力生态伙伴更快将AI设备推向市场,还可支持桌面级移动游戏、实时翻译、智能助手及个性化应用等多样的丰富体验。取消Cortex命名,Lumex平台CPU采用新的命名规则Arm高级副总裁兼终端事业部总经理Chris Bergey表示,从Lumex 平台开始,Arm引入新的命名规则。在这个新命名体系下,Lumex平台里面的CPU系列会以C1-Ultra、C1-Premium、C1-Pro以及C1-Nano等名称出现。这一命名体系清晰直观,能让整个行业和我们合作伙伴一目了然。同样的命名体系也应用于GPU产品线。例如,过去的 “Immortalis” 品牌,现统一采用 Lumex 体系下的Mali G1-Ultra 命名。关于面向汽车市场的 Zena CSS 平台,我们之前介绍过一些信息,但关于面向个人电脑的 Niva CSS 平台,我们尚未发布相关信息,敬请期待。具体来看,搭载SME2的Armv9.3架构在CPU、GPU方面都有较大提升。Arm C1-Ultra CPU是Arm至今推出的性能最强的CPU。它能为设备带来出色的25% 性能提升,非常适合处理严苛的 AI 与计算工作负载。针对功耗敏感型的用例,经过能效优化的Arm C1-Pro CPU 能效提升幅度达到了可观的 12%。借助SME2实现AI就绪端侧AI性能可提升达五倍,效率可提升三倍。显著的性能提升还包括语音识别延迟改善超4.7倍,经典大语言模型任务性能提升4.7 倍,生成式 AI 处理速度快2.8倍。GPU方面,Mali G1-Ultra 集性能与能效于一身,性能提升20% 的同时,能效也优化9%。图形和 AI 处理性能均实现两位数提升,光线追踪性能提升两倍。合作伙伴无论是希望选用 RTL 交付形式的技术授权方式,还是采用接近生产就绪的实现方案,Lumex 均能提供充分的灵活性与定制化能力,助力他们快速推进项目,大规模交付具备旗舰级加速性能的丰富AI体验。SME2较前代性能的提升此次,Arm在所有新推出的CPU平台上全面启用第二代可伸缩矩阵扩展(SME2) 技术,为开发者带来更强的AI性能、更低的内存占用,并让端侧AI运行更加流畅,尤其对于音频生成、摄像头推理、计算机视觉或聊天交互等对实时性要求严苛的应用而言。SME2的推出,标志着端侧 AI 开发迈入对开发者更为友好的新时代。Arm终端事业部产品管理副总裁James McNiven解析,SME2是SME的新一代版本。它新增了更多指令集,可进一步提升性能和能效。它支持更小的数据类型——具体而言是2 bit和4 bit,随着每年高度量化模型的不断增多,这类小数据类型在移动生态系统中的重要性正日益凸显。这也是我们重点将 SME2 整合到 Lumex 平台中的原因所在。最新的 Mali GPU 专为满足塑造下一代用户体验的混合工作负载而打造,并且受益于全新的光线追踪单元,性能提升了两倍,将在生成式 AI、实时推理以及高保真游戏应用带来更优异的用户体验。Arm预计到2030年SME和SME2将为超30亿台设备新增超100亿TOPS的计算能力。这将使端侧AI能力实现指数级飞跃,它将降低成本、减少延迟、增强隐私,整体提升用户体验。对开发者而言,这意味着他们能更迅速地将创新成果推向市场。借助Lumex,我们得以助力下一代旗舰级智能手机的快速发展,让AI真正实现个性化。它具备实时适配能力,从核心到上层进行了全面优化,能将平台级的智能体验置于你的掌心。提供额外2到6 TOPS算力,CPU算力对端侧AI更友好James McNiven表示,随着AI应用的日趋成熟,许多AI工作负载会从云端转向端侧。但云端与端侧的混合模式将会长期共存——云端 AI不会被取代,只是出于隐私考量,许多AI功能的运行需要同时满足三个条件:随时可用、低延迟交付,且必须在端侧运行。从功能提供者的视角来看,让用户设备承载尽可能多的 AI 工作负载以降低云端成本,亦是合理之举。因此,若某项工作负载需在端侧运行,开发者接下来要做的决策是该让它在设备的哪个模块上运行。如今的移动端系统级芯片 (SoC) 非常复杂,它们均配备 CPU(大部分计算工作负载在此运行)与高性能 GPU(专门处理图形工作负载)。旗舰或高端智能手机还会搭载 NPU,作为 AI 工作负载的专用加速器。从开发者的角度出发,他们大多需要较强的 CPU,从而进一步为工作负载提供更多灵活性。所以对于我们来说,重点就是不断的增强这些平台的计算体验。CPU 能够带来最大的灵活性,以实现整个生态系统普遍的性能。那么,在引入SME2之后,CPU的AI性能得到了怎样的提升呢?进一步来说,根据具体的实现方案和运行频率,第二代可伸缩矩阵扩展 (SME2) 在技术上可提供额外2到6 TOPS的算力。James McNiven解析,你可能会想“才 6 TOPS?而一些 NPU 已经超过 100 TOPS了。”相比之下这听起来似乎并不突出。但实际情况是,对于低延迟、模型较小的AI任务,例如图像预处理、语音识别或实时语境助手,这种级别的算力不仅足够,往往还绰绰有余。更重要的是,当今许多 AI 工作负载受限于内存带宽,而非算力本身。因此,即使 NPU 拥有 100 TOPS 的算力,如果无法足够快速地提供数据,这种峰值性能也难以被充分利用。通过启用 SME2 直接在 CPU 核心上运行,能够以低延迟访问缓存和系统内存,因此在处理这些规模小、频繁触发且对延迟敏感的任务时极为高效。因此,尽管 2 到 6 TOPS 的数值看似不高,但在实际应用中的效率和响应速度上,却是一次巨大的跃升。此外,SME2 还带来了可编程性优势。与功能固定的 NPU 不同,它能适应不断演进的各类 AI 模型和用例。当然,NPU不会消失,GPU上的推理也不会消失。Arm 深信不同的计算单元有不同的长处,各自针对不同类型的 AI 工作负载进行优化。NPU 擅长高吞吐量、大模型的推理任务,例如大语言模型 (LLM)、视觉 Transformer;GPU 更适合并行性强、与图形相关的 AI 任务,例如渲染加上 AI 图形优化升级;而搭载 SME2 的 CPU,则在需要与系统逻辑紧密集成的低延迟、持续在线的小模型任务中有卓越表现。这些计算单元并非相互竞争,而是相辅相成。SME2 带来了全新的灵活性,尤其对那些希望AI特性能够在尽可能多的设备上运行的第三方开发者而言,这个灵活性意义重大,包括那些没有专用NPU的设备。因为每一台基于 Arm 架构的智能手机都具备 CPU,且在不久的将来,许多智能手机都将支持启用 SME2 的 CPU 核心。这意味着开发者可以依赖一个一致且广泛可用的 AI 加速层,无需担心硬件碎片化的问题。在AI计算时代,Arm 的产品体系从 IP 到计算子系统 (CSS),再到“AI 优先”的计算平台。这项着眼“平台优先”的产品战略,整合了高性能 CPU/GPU 硬件、KleidiAI 软件工具及集成库,构建起“芯片-软件-工具”的端到端平台。凭借卓越的性能、能效和可扩展性,该计算平台能助力合作伙伴实现快速集成,降低研发复杂度与规模化风险,满足 AI 时代的多样化需求。声明:本文由电子发烧友原创,转载请注明以上来源。如需入群交流,请添加微信elecfans999,投稿爆料采访需求,请发邮箱huangjingjing@elecfans.com。更多热点文章阅读卫星通信商业化拐点:T/R芯片集成化+GaN赋能,迈入小型化特斯拉AI芯片战略升级,“史诗级”芯片接棒Dojo不是HBM,端侧AI的超高带宽DRAM!这些厂商发力堆叠方案!上半年国产模拟芯片强势复苏,厂商营收暴涨超100%博通获OpenAI“百亿大单”,AI芯片业务收入大增点击关注 星标我们将我们设为星标,不错过每一次更新!喜欢就奖励一个“在看”吧!