谁将填补英伟达在中国留下的 AI 芯片空白?

智能情报所 2025-09-30 14:17

作者:TONY PENG

日期:2025 年 9 月 29 日


十多年来,英伟达的芯片一直是中国人工智能生态系统的核心引擎。

它的GPU驱动着搜索引擎、视频应用、智能手机、电动汽车,以及当前汹涌的生成式人工智能浪潮。

华盛顿过去几年收紧了先进 AI 芯片的出口管制,中国公司依然持续采购那些为中国市场特供的降级版芯片,如 H800, A800 和 H20。

但到了 2025 年,北京的耐心似乎走到了尽头。

中国 AI 初创公司 DeepSeek 也在 8 月份释放信号,其下一代模型将围绕中国的下一代国产 AI 芯片进行设计。

这个信号再清晰不过了:中国不能再将其 AI 的未来,押注在一家美国供应商身上。

如果英伟达不愿意,或者不能,在这里销售它最顶级的硬件,那么本土替代品就必须填补这个空白。

这很困难,有人甚至认为不可能。英伟达的芯片为全球 AI 计算能力设立了标杆。

要与之匹敌,需要的不仅是原始的芯片性能,还包括内存、互连带宽、软件生态系统,以及最重要的——规模化的生产能力。

尽管如此,几个有力的竞争者已经浮现,成为中国最大的希望:华为、阿里巴巴、百度和寒武纪。

每一家公司,都从不同侧面讲述着中国重塑其 AI 硬件堆栈的决心。(下图比较了市面上主流的国产 AI 芯片与英伟达的 H100 和 H20。)

谁将填补英伟达在中国留下的 AI 芯片空白?图1

来源:Nvidia、Tom's Hardware、Lenovo Press、CSET、百度、阿里巴巴、华为、鲲鹏、腾讯科技、国信证券等媒体报道

华为:最受瞩目的竞争者

谁将填补英伟达在中国留下的 AI 芯片空白?图2
华为的三年 AI 芯片路线图。来源:华为

如果英伟达出局,华为看起来是最自然的替代者。它的昇腾系列 AI 芯片在美国的制裁下日渐成熟。

2025 年 9 月,华为更是首次公布了未来多年的公开路线图:

  • 昇腾 950,预计 2026 年问世,性能目标为 FP8 精度下达到 1 PFLOPS,配备 128–144 GB 内存,互连带宽高达 2.0 TB/s。
  • 昇腾 960,计划于 2027 年推出,性能预计是 950 的两倍。
  • 昇腾 970,是更长远的规划,每一代都承诺在算力和内存带宽上实现巨大飞跃。

目前市场上的主力产品是昇腾 910B,它是华为在全球供应链被切断后推出的。

它的性能大致与英伟达 2020 年的顶级芯片 A100 相当,因此成为那些无法获得英伟达 GPU 的公司的首选。

一位华为高管甚至在 2024 年声称,在某些训练任务中,910B 的性能比 A100 还要高出约 20%。

但这款芯片仍依赖于较旧的 HBM2E 内存,这使其内存容量比英伟达 H20 少了三分之一,芯片间的带宽也落后了 40%。

华为最新的解法是 910C,它采用双芯粒设计,将两颗 910B 融合在一起。

理论上,它的性能可以接近英伟达的 H100。华为自己就曾展示了一个由 384 颗芯片组成的 Atlas 900 A3 SuperPoD 集群。

这个集群的算力达到了约 300 PFLOPS,这意味着每颗 910C 在 FP16 精度下能提供接近 800 teraflops 的算力。

这虽然仍低于 H100 的约 2,000 teraflops,但只要大规模部署,就足以支撑大模型的训练。事实上,华为已详细说明了如何使用昇腾 AI 芯片来训练类似 DeepSeek 的模型。

为了弥补单芯片的性能差距,华为正押注于机架级的超算集群,将成千上万颗芯片汇集起来,以实现算力的巨大增长。

在 Atlas 900 A3 SuperPoD 的基础上,公司计划于 2026 年推出 Atlas 950 SuperPoD。

该集群将连接 8,192 颗昇腾芯片,提供 8 EFLOPS 的 FP8 性能,并由 1,152 TB 的内存和 16.3 PB/s 的互连带宽作为支撑。整个集群的占地面积将超过两个标准篮球场。

展望更远的未来,华为的 Atlas 960 SuperPoD 计划将规模扩展至 15,488 颗昇腾芯片。

谁将填补英伟达在中国留下的 AI 芯片空白?图3
华为董事长徐直军介绍 Atlas 950 SuperPoD。来源:华为

硬件并非华为唯一的武器。它的 MindSpore 深度学习框架和底层的 CANN 软件,旨在将客户锁定在自己的生态系统内。

这两者分别为业界主流的 PyTorch 和 CUDA 提供了国产替代方案。

有政府背景的企业,以及像科大讯飞、360 和商汤科技这样受美国制裁的公司,都已签约成为华为的客户。

字节跳动和百度等中国科技巨头,也小批量订购了芯片进行试用。

在挑战英伟达的征程上,华为已经处在了前所未有的有利位置。

阿里巴巴:从云到芯

谁将填补英伟达在中国留下的 AI 芯片空白?图4

中国联通建设数据中心,使用本地采购的 AI 芯片。来源:CCTV 1

阿里巴巴的芯片部门达摩院(平头哥)成立于 2018 年,最初的业务重心围绕 RISC-V 处理器和数据中心服务器,目标相对温和。

如今,它正成为中国挑战英伟达的最积极的力量之一。

达摩院的首款 AI 芯片是含光 800,这是一款在 2019 年发布的高效推理芯片。

它能够每秒处理 78,000 张图片,并能优化推荐算法和大型语言模型。

这款芯片基于 12 纳米工艺,集成了约 170 亿个晶体管,可提供高达 820 TOPS 的峰值性能和约 512 GB/s 的内存带宽。

谁将填补英伟达在中国留下的 AI 芯片空白?图5

含光 800。来源:阿里云

但它最新的设计——被称为 PPU的芯片——则完全是另一个量级的产品。

PPU 配备了 96 GB 的高带宽内存,并支持 PCIe 5.0,其目标是直接对标英伟达的 H20。

在一个报道中国联通数据中心的官方电视节目中,PPU 被介绍为有能力与英伟达 H20 相抗衡的产品。

报道称,该数据中心共运行 22,000 颗芯片,其中超过 16,000 颗是 PPU。媒体 The Information 也曾报道,阿里巴巴一直在使用自研 AI 芯片来训练大模型。

除了芯片,阿里云最近还升级了其名为「磐久」的超级节点服务器。

每个机架可容纳 128 颗 AI 芯片,采用模块化设计以便于升级,并配备了全液冷系统。

对阿里巴巴而言,自研芯片的动机既是为了争夺云市场的主导地位,也与国家战略息息相关。

它的阿里云业务,高度依赖于训练级芯片的稳定供应。通过让自研芯片具备与英伟达竞争的实力,阿里巴巴将自身基础设施的未来牢牢掌握在自己手中。

百度:重注昆仑

谁将填补英伟达在中国留下的 AI 芯片空白?图6

百度 CEO 李彦宏在其 2021 年旗舰会议上宣布昆仑 2。来源:百度

百度的芯片故事,早在今天的 AI 热潮之前就已拉开序幕。

最早在 2011 年,这家搜索巨头就开始尝试使用 FPGA,来加速其搜索和广告业务中的深度学习工作负载。

这个内部项目,后来就发展成了昆仑芯片。

第一代昆仑芯片于 2018 年问世。昆仑 1 采用三星的 14 纳米工艺制造,可提供约 260 TOPS 的算力,峰值内存带宽为 512 GB/s。

三年后,昆仑 2 问世,这是一次温和的升级。它采用 7 纳米节点,将 INT8 性能提升至 256 TOPS,FP16 性能提升至 128 TFLOPS,同时将功耗降低到约 120 瓦。

百度的第二代芯片更多地瞄准推理密集型任务,如 Apollo 自动驾驶和百度智能云服务,而不是训练。

此后,百度将昆仑业务分拆,成立了一家名为“昆仑芯”的独立公司,当时估值达到 20 亿美元。

在接下来的几年里,关于昆仑的进展鲜有消息。但这种情况在 2025 年发生了戏剧性的变化。

在其开发者大会上,百度发布了一个由 30,000 颗第三代 P800 处理器驱动的庞大集群。

根据国信证券的研究,每颗 P800 芯片在 FP16 精度下可达到约 345 teraflops 的算力,这使其与华为的 910B 和英伟达的 A100 处于同一梯队。

据报道,其互连带宽已接近英伟达的 H20。百度宣称该系统能够训练拥有数千亿参数的 DeepSeek 级别模型。

百度最新的多模态模型——拥有 30 亿、80 亿和 700 亿参数的千帆-VL,全部是在其昆仑 P800 芯片上训练完成的。

谁将填补英伟达在中国留下的 AI 芯片空白?图7

来源:国信证券

昆仑的雄心,早已超越了满足百度内部的需求。

今年,昆仑芯片已为中国移动的 AI 项目,获得了价值超过 10 亿元人民币(约 1.39 亿美元)的订单。

这一消息帮助重振了投资者的信心:百度股价今年上涨了 64%,而昆仑的亮相在其中扮演了核心角色。

寒武纪:王者归来

谁将填补英伟达在中国留下的 AI 芯片空白?图8

寒武纪可能是中国A股市场上表现最好的上市公司之一。在过去 12 个月里,寒武纪的股价上涨了近 500%。

寒武纪于 2016 年正式从中国科学院分拆成立,但它的技术根源可以追溯到 2008 年。

当时一个研究项目,专注于为深度学习开发类脑处理器。到了 2010 年代中期,创始团队坚信,AI 专用芯片才是未来。

在早期,寒武纪专注于为移动设备和服务器开发神经网络处理单元。

华为是它关键的第一个客户,在其麒麟移动处理器中使用了寒武纪的设计授权。

但随着华为转向自研芯片,寒武纪失去了一个旗舰级的合作伙伴,这迫使它迅速向边缘和云端加速器领域扩张。

来自阿里巴巴、联想、科大讯飞以及主要国家级基金的支持,帮助寒武纪在 2018 年将估值推高至 25 亿美元,并最终于 2020 年成功登陆上海科创板。

接下来的几年异常艰难。公司收入下滑,投资者撤资,现金流持续失血,同时还要奋力追赶英伟达飞速的创新步伐。

有段时间,寒武纪看起来像是又一个折戟沉沙的中国半导体故事。

但到 2024 年底,命运开始逆转。公司重返盈利轨道,这在很大程度上要归功于其最新的 MLU 系列芯片。

该产品线已稳步走向成熟。MLU 290 采用 7 纳米工艺,拥有 460 亿个晶体管,专为混合训练和推理任务设计,其互连技术可扩展至超过 1000 颗芯片的集群。

后续的 MLU 370,是寒武纪被美国制裁前的最后一个版本,其 FP16 性能可达 96 TFLOPS。

真正的王牌,是 2023 年推出的 MLU 590。

这款芯片基于 7 纳米工艺,FP16 峰值性能达到了 345 TFLOPS,一些报告甚至认为它在特定场景下能够超越英伟达的 H20。

更重要的是,它引入了对 FP8 等更低精度数据格式的支持,这极大地缓解了内存带宽的压力并提升了效率。

这款芯片不仅标志着一次技术飞跃,更彻底扭转了寒武纪的财务状况,让市场重拾信心,相信这家公司能够交付商业上成功的产品。

现在,所有的目光都聚焦在正在研发中的思元 690 上。

业界传闻称,它在某些指标上可能接近,甚至匹敌英伟达的 H100。

预期的升级包括更密集的计算核心、更强的内存带宽,以及对 FP8 支持的进一步优化。如果成功,这将把寒武纪从国产替代的身份,一举推升为全球前沿的真正竞争者。

寒武纪依然面临障碍:它的芯片产量还未达到华为或阿里巴巴的规模,而且过去经营的不稳定也让客户心存顾虑。

但从象征意义上讲,它的回归至关重要。

曾经被视为挣扎求存的初创公司,寒武纪如今被看作一个有力的证明:中国的国产芯片之路,完全可以结出既能盈利、又具备高性能的果实。

一场关乎地缘政治的拉锯战

这场围绕英伟达在中国市场地位的斗争,其核心其实无关算力或带宽。

它关乎的是控制权。

华盛顿将芯片限制视为维护国家安全、减缓北京 AI 发展步伐的手段。

而北京则将摆脱英伟达视为降低战略风险的必然选择,即使这意味着要暂时忍受性能稍逊的硬件。

中国的四大竞争者——华为、阿里巴巴、百度、寒武纪,以及壁仞、沐曦和燧原等其他规模较小的公司,目前还无法提供完美的替代品。

但有一件事是确定的:在这场全球最重要的技术竞赛中,中国不想再屈居人后。

一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 芯片 英伟达
more
AI技术开放交流群成立!AIGC、大模型、自动驾驶、具身智能。。。
谁将填补英伟达在中国留下的 AI 芯片空白?
OpenAI:我们需要100亿个GPU
首届“AI家书”创新大赛6大项目获奖,科技让亲情“跨越时空”
OPPO也要做手持云台相机,对标大疆,计划2026年内发布;手机厂商海报小字引发热议,魅族高管回应;曝顶级AI大牛加入阿里通义
消费电子9月报:高端手机增速领跑,国产AI芯片与稳增长政策落地注入新动能
从 AI 芯片到 CPO 终极卡位战!NVIDIA 博通技术路线大对决
干货满满!前沿技术+创新思辨,一线青年研究员分享AI4S关键工作
曝 OpenAI 将推出「AI 抖音」:禁止上传实拍内容,Sora 2 加持
AMD下一代AI超分辨率技术更新在即 | 区势·数码
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号