每代昇腾芯片内存升级,算力翻倍。作者 | ZeR0编辑 | 漠影智东西9月18日报道,今日,在华为全联接大会2025开幕式上,华为副董事长、轮值董事长徐直军发表主题演讲,公布华为昇腾AI芯片4年5款产品路线图,并正式发布全球最强算力超节点和集群。华为在今年第一季度推出昇腾910C AI芯片,预计将于2026年第一季度推出昇腾950PR,2026年第四季度推出昇腾950DT,2027年第四季度推出昇腾960,2028年第四季度推出昇腾970。▲昇腾芯片路线图(芯东西制表)本次大会,华为推出基于灵衢和超节点架构的全新产品,包括全液冷数据中心AI超节点Atlas 950 SuperPoD、企业级风冷AI超节点服务器Atlas 850和Atlas 860、AI新一代标卡Atlas 350、业界首个通算超节点Taishan 950 SuperPoD等。其中Atlas 350标卡采用的便是下一代昇腾950PR芯片。01.4款全新AI芯片:大内存、高带宽、强算力昇腾950芯片架构新增支持低精度数据格式,FP8、MXFP8、HiF8精度下AI算力可达到1PFLOPS,MXFP4精度下AI算力可达到2PFLOPS,互联带宽提升2.5倍至2TB/s。该系列芯片还提升了向量算力配比,支持SIMD/SIMT,并支持更精细粒度内存访问(512B→128B)。其支持华为自研HBM。昇腾950PR采用的是HiBL 1.0,内存容量为128GB、带宽为1.6TB/s;昇腾950DT采用的是HiZQ 2.0,内存容量为144GB、带宽为4TB/s。昇腾950PR提升了推理Prefill性能,支持FP8、MXFP8、HiF8、MXFP4,并优化了推荐业务性能。昇腾950DT提升了推理Decode性能,支持FP8、MXFP8、HiF8、MXFP4;还提升了训练性能,支持FP8、MXFP8、HiF8。昇腾960大幅提升训练和推理性能,算力、内存容量、内存带宽、互联端口数均翻倍,内存容量升级到288GB,内存带宽为9.6TB/s,支持40个互联端口,支持自研HiF4数据格式(最优4bit精度实现)。该芯片在FP8精度下AI算力达到2PFLOPS,FP4精度下AI算力达到4PFLOPS。昇腾970的训练和推理性能继续翻倍,FP8精度下AI算力达到4PFLOPS,FP4精度下AI算力达到8PFLOPS,内存带宽为14.4TB/s,互联带宽为4TB/s。总体而言,昇腾芯片迭代路径是支持更多数值类型、升级更大内存容量与带宽、实现更高算力、更加易用。02.全球最强算力超节点和集群来了!支持百万卡互联“算力过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键,”徐直军谈道,“基于中国可获得的芯片制造工艺,华为努力打造「超节点+集群」算力解决方案,来满足持续增长的算力需求。”超节点在物理上由多台机器组成,但逻辑上以一台机器学习、思考、推理。徐直军宣布,新发布的华为Atlas 950 SuperPoD和Atlas 960 SuperPoD超节点,分别支持8192张及15488张昇腾卡,在卡规模、总算力、内存容量、互联带宽等关键指标上全面领先,在未来多年都将是全球最强算力的超节点。基于超节点,华为同时发布了全球最强超节点集群,分别是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力规模分别超过50万卡和达到百万卡。徐直军说,基于全球最强算力的超节点和集群,华为对于为人工智能的长期快速发展提供可持续且充裕算力,充满信心。同时,华为率先把超节点技术引入通用计算领域,发布全球首个通用计算超节点TaiShan 950 SuperPoD,结合GaussDB分布式数据库,能彻底取代各种应用场景的大型机和小型机以及Exadata数据库一体机,将成为各类大型机、小型机的终结者。华为基于三十多年构筑的联接技术能力,通过系统性创新,突破了大规模超节点的互联技术巨大挑战,开创了面向超节点的互联协议灵衢(UnifiedBus)。徐直军宣布华为将开放灵衢2.0技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。华为董事、ICT BG CEO杨超斌说,基于灵衢互联协议,华为开创了超节点架构,可将多台物理机器深度互联,实现逻辑层面像一台机器一样学习、思考与推理,重新定义了高效、稳定、可扩展的大规模有效算力新范式。华为Atlas 900 A3 SuperPoD超节点至今已累计部署300多套,服务于互联网、金融、运营商、电力、制造等行业的20多个客户。华为在本次大会上推出基于灵衢和超节点架构的全新产品,包括全液冷数据中心AI超节点Atlas 950 SuperPoD、企业级风冷AI超节点服务器Atlas 850和Atlas 860、AI新一代标卡Atlas 350、业界首个通算超节点Taishan 950 SuperPoD等。Atlas 950 SuperPoD,被称作“面向超大型AI计算任务的最佳选择”,从基础器件、协议算法到光电技术,实现系统级创新突破。通过正交架构,Atlas 950实现零线缆电互联,采用液冷接头浮动盲插设计做到零漏液,其独创的材料和工艺让光模块液冷可靠性提升1倍。其创新的UB-Mesh递归直连拓扑网络架构,支持单板内、单板间和机架间的NPU全互联,以64卡为步长按需扩展,最大可实现8192卡无收敛全互联。Atlas 850,是业界首个企业级风冷AI超节点服务器,内部搭载8张昇腾NPU,有效满足企业模型后训练、多场景推理等需求。该服务器支持多柜灵活部署,最大可形成128台1024卡的超节点集群。这是目前业内唯一可在风冷机房实现超节点架构的算力集群。Atlas 350标卡,采用最新的昇腾950PR芯片,向量算力提升2倍,支持更细粒度的Cacheline访问,在推荐推理场景可实现2.5倍性能提升,且单卡即可运行。Atlas 350支持4个灵衢端口互联,实现算力、内存等资源池化,让更大参数模型、更低时延应用可以在标卡上实现。TaiShan 950 SuperPoD,是华为推出的业界首款通算超节点,具备370纳秒超低时延、2.8T超大带宽和内存池化能力,能大幅提升数据库、虚机热迁移和大数据场景等业务性能,为通算性能提升开辟全新路径。03.结语:全面开放超节点技术,推动协同创新华为宣布全面开放超节点技术,与产业界共享技术红利,共同推动超节点技术走向普惠与协同创新。首先,开放灵衢协议和超节点参考架构,允许产业界基于技术规范自研相关产品或部件。其次,全面开放超节点基础硬件,包括NPU模组、风冷刀片、液冷刀片、AI标卡、CPU主板和级联卡等不同形态的硬件,方便客户和伙伴进行增量开发,设计基于灵衢的各种产品。操作系统灵衢组件也将全部开源,组件代码将陆续合入openEuler等多个上游操作系统开源社区。用户可以根据实际需求,将部分或全部源代码集成到现有操作系统中,自行迭代维护版本,也可以将整个组件直接合入现有操作系统,未来演进与开源社区版本同步。同时,昇腾CANN全面开源开放,Mind系列组件也同步开源,并优先支持PyTorch、vLLM等业界开源社区,加速开发者自主创新。(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)