近日,中国禁止相关企业采购英伟达人工智能(AI)芯片的消息刚传出。次日,华为公布了此前鲜有披露的AI芯片发展路线图,对此,业界人士评论称:华为这是彻底“不装了,摊牌了”。与此同时,阿里巴巴的AI芯片参数也被曝光,一场AI芯片的“全面国产替代”或许正在拉开序幕。
黄仁勋表示“失望”
据外媒报道,援引三位知情人士:中国监管机构已通知阿里、字节跳动等头部科技公司,暂停采购英伟达任何“中国特供”AI 芯片,其中包含尚未发布的 RTX Pro 6000D。
英伟达首席执行官黄仁勋在伦敦的一场记者会上对此表示“失望”,他即将与美国总统特朗普共同出席当天晚些时候的国宴。黄仁勋称:“我们对中国市场的贡献恐怕超过大多数国家,看到这样的局面我感到失望。但中美之间有更大的议题需要处理,我对此表示理解。”
回顾过去十年,中国人工智能产业与英伟达的绑定程度极深。无论是对算力需求极高的大模型训练场景,还是科研实验室日常的研发工作,英伟达的 H100、A100 芯片几乎成为行业标配。然而,随着美国对华芯片出口限制层层加码,这种单一的依赖格局正被迫发生改变,中国 AI 产业开始加速探索 “去英伟达化” 的路径。
华为摊牌了
在今天举办的华为全连接大会上,华为率先释放出强劲的国产替代信号,正式披露了最新的昇腾(Ascend)芯片路线图,明确了未来数年的产品迭代节奏:
2025年Q1:Ascend 910C
2026年Q1:Ascend 950PR=Ascend 950 Die + HIBL 1.0
2026年Q4:Ascend 950DT=Ascend 950 Die +HIZQ 2.0
2026年Q4:Ascend 960
2028年Q4:Ascend 970
在大会上,华为还对即将推出的950架构进行了解读:
一、新增支持低精度数据格式:
1、FP8/MXFP8/HIF8:1 PFLOPS
2、MXFP4: 2 PFLOPS
二、提升向量算力
1、More compute allocated for vector processing
提升向量算力配比
2、Support for SIMD / SIMT
支持SIMD/SIMI
3、More granular memory access
支持更精细粒度内存访问:512B 128B
三、提升提升互联带宽2.5倍:2 TB/s
此外,华为还强调,950支持自研的HBM。换而言之,华为已经自研了HBM华为同时还强调,公司将:
1、坚持昇腾硬件变现;
2、CANN编译器和虛拟指令集接口开放,其它软件全开源,CANN基于910B/C的开源开放将于2025年12月31日前完成,未来开源开放与产品上市同步;
3、Mind系列应用使能室件及工具健全面开源,并于2025年12月31日前完成;
4、openPangu基础大模型全面开源;
华为还透露,公司将打造基于Ascend 950全球最强节点Atlas 950 SuperPoD:
节点拥有8192 NPU;
算力高达8 EFLOPS FP8;
内存容量1152 TB;
内存带宽高达16.3 PB/s
训练总吞吐4.91mn TPS
推理总吞吐19.6mn TPS
华为还将打造基于Ascend 950DT / Ascend 960的Atlas 960 SuperPoD。据介绍,这个节点拥有15488卡(NPU),算力高达30 EFLOPS FPB / 60 EFLOPS FP4,跨柜全光互联(互联带宽34 PB/s)。
阿里、百度也在加速自研
除华为外,阿里巴巴、百度等企业也在积极推进自研芯片的落地应用,加速国产替代进程。据《The Information》报道,阿里巴巴与百度已在人工智能模型训练中引入自研芯片,以部分替代英伟达产品:阿里自今年年初起,便在小规模模型训练中试用自研芯片;百度则尝试用昆仑 P800 芯片训练新版文心大模型。
事实上,阿里巴巴的“造芯野心” 早有布局。2018 年,阿里收购中天微,并在此基础上成立 “平头哥” 半导体公司,将芯片业务归入达摩院体系。此后,阿里相继推出含光 800、玄铁处理器、倚天 710 等多款芯片产品,并在云计算与推理加速场景中逐步落地。今年早些时候,阿里还被曝出正在内部测试一款由国内晶圆厂代工的新型 AI 推理芯片,该芯片旨在补齐大模型推理与云计算领域的算力短板。据悉,这款芯片已进入测试阶段,可面向更广泛的 AI 推理任务,且能保持对英伟达生态的兼容性;更值得关注的是,该芯片不再依赖台积电,转而选择国内厂商代工,其背后的战略布局意义不言而喻。
9 月 16 日晚,《新闻联播》的报道中意外曝光了阿里旗下平头哥最新研发的 AI 专用 PPU 芯片的关键参数。根据央视公布的 “国产卡与 NV 卡重要参数对比” 画面显示,平头哥 PPU 的各项主要参数指标均超越英伟达 A800,与英伟达 H20 基本相当:
显存方面:平头哥PPU 配备 96GB HBM2e 显存,高于英伟达 A800 的 80GB HBM2e,与 H20 显存容量持平
片间互联带宽:平头哥PPU 达 700GB/s,高于 A800 的 400GB/s
接口规格:支持PCIe 5.0×15,优于 A800 的 PCIe 4.0×16
功耗控制:保持在400W,与 A800 一致,低于 H20 的 550W
尽管在显存技术上(HBM2e 与HBM3),平头哥PPU 与H20 仍有一代差距,但这些参数已充分表明,阿里平头哥在芯片研发领域已具备与国际巨头比肩的实力,国产芯片取得了重要突破。
在研发投入上,阿里巴巴同样毫不吝啬。过去四个季度,公司在 AI 基础设施与产品研发上的累计投入已超过1000 亿元;今年2 月,阿里进一步宣布,未来三年将追加3800 亿元用于建设云计算与AI 硬件基础设施,其中芯片研发是最核心的投入方向之一。
百度在芯片领域的布局同样具有长期性。自 2011 年起,百度便成立了芯片研发团队;2018 年,推出首款昆仑芯片,主要应用于自动驾驶和云端推理场景;2021 年,昆仑二代芯片算力实现数倍提升;而最新的昆仑P800 芯片,已被直接用于文心大模型的训练。至此,百度逐步形成了算法与算力“双轮驱动” 的发展格局。
不容易的国产替代
当前,在算力需求最为极致的前沿大模型研发场景中,英伟达芯片依旧具有不可替代性。但有使用过阿里自研芯片的员工反馈,其性能已能与英伟达目前在华可提供的最强芯片 H20 相媲美,这意味着国产芯片替代的“临界点” 正逐步逼近。
面对美国的出口限制,英伟达也在积极寻找 “自救” 路径。上月底,黄仁勋表示,公司与美国白宫就向中国出口 “降配版” 下一代芯片的谈判仍在推进中;另有报道称,英伟达甚至已与特朗普达成协议,作为向中国出口芯片的交换条件,公司需上缴其在华 H20 芯片销售额的15%。
从短期来看,这场中美之间的 AI 芯片博弈,必将进一步加剧全球AI 产业的地缘政治色彩,给行业发展带来更多不确定性;但从长期来看,随着华为、阿里、百度等中国企业在芯片研发领域的逐步成熟,中国AI 产业或将在未来几年迎来算力格局的重塑。而能否真正构建起一条完整、自主可控的“国产 AI 算力链”,将成为决定中国 AI 产业未来发展高度与广度的关键所在。
· END ·

扫码添加小助手回复“机器人”
进群和电子工程师们面对面交流经验