国产AI芯片最新座次排定,万字长文分析16家企业,中国版“Wintel”联盟浮现,自主AI生态闭环初显

智能情报所 2025-09-12 17:14


探寻驱动中国自主 AI 生态系统的硬件核心

作者:RYAN CUNNINGHAM

日期:2025年9月12日


起初,这个项目只是我与中国半导体专家和投资者在国内交流时的一些零散笔记,旨在为我们 Edgerunner Ventures 的硬件投资论点提供参考。但后来它逐渐发展壮大,而我又有其他想写的东西……所以现在决定将其全文发布。

我还发布了硅前沿数据集的 v0.1 版本,本次分析主要基于该数据集。中国的芯片公司不太愿意公布单个产品的具体规格,因此从可靠来源寻找性能数据非常困难……所以我决定自己从证券文件、存档的公司页面和其他第一手资料中汇编一份。未来我将不断完善和扩充这个数据集。

这是我迄今为止最长的一篇文章——长达 24,733 字——所以友情提示,我建议不要直接深入,而是按以下顺序阅读:


面向政策制定者 / 宏观决策者:

  • 执行摘要
  • 快速浏览公司简介
  • 收藏硅前沿数据集
  • 使用 CMD+F 搜索“行业认证”
  • 战略分析 → 实体清单的影响
  • 战略分析 → 战略支持

面向技术型分析师:

  • 执行摘要
  • 快速浏览公司简介
  • 收藏硅前沿数据集
  • 数据与方法论(全部)
  • 技术分析(全部)
  • 战略分析 → 实体清单的影响
  • 战略分析 → 商业应用

这次分析也对现代大语言模型在处理深度科技和双语行业分析方面的局限性进行了一次有价值的压力测试。西方的模型服务商需要大量引导才会引用中文第一手资料,但处理上传的混合语言 PDF 文件时表现尚可。

DeepSeek、Kimi K2 等中国模型在信息源引用方面要好得多,但即便是网络搜索工具,在长文本窗口中也难免出现严重的幻觉,需要反复核查和筛选。因此,如果文中有任何不准确之处,请在评论中提供其他第一手资料!我会进行修改并注明更正来源。

引言

如果你问“中国在尖端半导体领域落后多少”,你得到的答案会和提问的人数一样多。20年、10年、5年,甚至是2年。如果你问“谁将成为中国的英伟达”,最常听到的答案可能是华为,最近又多了寒武纪。

在我看来,这些问题的各种变体都不能令人满意。仅仅关注眼前可见的事件——即所谓的尖端——会忽视那些在表层之下发展、能够产生并维持技术经济动能的系统。

毕竟,泰坦尼克号撞上的不是水面上的冰山一角……而是水下那整座巨大的冰山。这就是为什么技术变革常常感觉是渐进的,然后突然之间爆发。

此外,尽管大多数国产芯片在原始性能上落后于国外竞争对手,但过分纠结于孤立的统计数据,会忽视其客观上飞速的发展步伐。我认为,它们在能效计算指标上的表现,对于探讨自主 AI 的问题更具现实意义。

因此,对中国的芯片生态系统进行更细致入微的理解是必要的。

在这篇文章中,我将揭示我们正在追踪的 16 家公司的面纱,并试图理清它们在市场中的相对位置。

这些突围者正通过异构计算、深度跨界合作和新颖的设计范式,寻找绕过技术瓶颈的新方法。当然,也有明显的失败者,这凸显了国家主导创新模式的局限性。

值得一提的公司有几十家,但到目前为止,只有少数几家为国家的自主芯片生态系统做出了实质性贡献。

需要明确的是,我们今天只关注无晶圆厂的加速器(GPU 和 ASIC)芯片设计公司。

至于 CPU、FPGA 以及像中芯国际、长鑫存储和长江存储这样的存储芯片 IDM——这些都是价值链中的关键环节——我们将留待未来进行深度剖析。

可以认为,如果不全面评估国内可靠制造这些芯片的能力,本分析是不完整的。但正如我们将看到的,即使中芯国际和长鑫存储的良率维持在当前水平,这些设计公司也已经在技术树上取得了长足的进步。

执行摘要

我将首先总结本分析的发现,并阐述其对美国技术专家和政策制定者的意义。更详细的公司信息、性能规格和定性评估,请继续阅读。

核心观点

首先,虽然美国的实体清单可能对一些先行者(如壁仞科技、摩尔线程)产生了负面影响,但这一策略无疑催化了国内芯片和软件的创新,从而绕过了一次性的技术禁令。

例如,本月华为海思计划开源其统一缓存管理器(UCM),这是一个 AI 推理加速工具包,可将模型内存工作负载分片到不同类型的内存(HBM、DRAM 甚至 SSD)中,从而将延迟降低高达 90%,并将系统吞吐量提高达 22 倍。这将显著削弱 HBM 限制对受制裁实体的影响,专家们普遍认为 HBM 是国产加速器的关键瓶颈。

其次,国内生态系统正在围绕模型、硬件和精度标准进行整合,旨在为大规模部署建立足够好的性能标准。

DeepSeek 也已宣布支持 UE8M0 FP8 精度作为国产芯片的性能标准,芯片制造商也纷纷宣称其最新产品支持 FP8(如寒武纪的思元 690、燧原科技的邃思 L600 和算能科技的 SC11-FP300)。

中国信息通信研究院(CAICT)最近开始向芯片制造商(摩尔线程、算能科技)颁发“AI 芯片与大模型适配测试证书”,这些公司的产品已证明对于完整版的 DeepSeek R1 671B 模型具有合格的推理性能。

这一第三方基准为数百万美元的芯片合同采购过程中的性能和能效设定了可接受的门槛,为买卖双方提供了清晰的参考。

第三,针对特定硬件的投资正在稀疏计算和内存内/近内存计算(PIM / NDP)设计领域开花结果。

墨芯科技的第一代芯片在 MLPerf 推理基准测试中已超越英伟达 H100,在能耗降低约 3 倍的情况下,实现了超过 1.6 倍的性能吞吐量,使得单卡和超级节点环境下的每焦耳 token 产出提高了约 5 倍。在稀疏计算、模拟计算和异构计算技术上的持续进步,正在提高能效计算产出并降低总拥有成本。

最后,最后一个支柱可能是英伟达的软件护城河(CUDA),但它也可能即将被攻破。

虽然 CUDA(甚至 AMD 的 ROCm)仍是大多数中国 AI 工程师的首选,但领先的芯片制造商(百度昆仑芯、摩尔线程、沐曦、燧原科技)已宣布将确保其最新芯片完全兼容 CUDA 作为首要任务。

同时,各厂商自有的代码转换编译器在 CUDA 翻译性能上取得了显著提升(例如,寒武纪的 Qimeng-XPiler 实现了 95% 以上的准确率和低于 5 小时的调试时间)。与 CUDA 对抗昇思 CANN 的开源开发者之战相比,这可能是对 CUDA 主导地位更大的威胁。

总而言之,我们正在见证中国本土芯片能力的一个拐点。尽管落后于英伟达的旧款芯片,但国产硬件正在超越仅仅满足自主 AI 生态系统需求的阶段——它可能很快将足以开始输出中国的 AI 技术栈。

启示

如果我还没说清楚的话……那就是:大势已去,覆水难收。继续试图控制、否认或阻碍中国的国内发展,只会加速这一现在已不可避免的转变。

冷战时期的技术限制与国际开发者生态系统的运作方式完全背道而驰,在现代社会,这种做法只会产生与其既定目标相反的结果。

美国高级 AI 政策顾问 Sriram Krishnan 很好地阐述了这一现实,他指出,美国需要最大化美国 AI 技术栈——即用于训练和运行模型的模型、芯片和软件——的开发者市场份额。这是一个经典的开发者飞轮效应。

我们已经处于这场 AI 技术栈竞赛的初期阶段。在硅谷,我认识的大多数开发者和初创公司都在以某种方式使用中国的模型(a16z 的 Martin Casado 估计比例高达 80%)。它们开源,质量达到或超过美国模型,并且在推理托管方面的成本要便宜 10 到 30 倍。

与此同时,美国的先行者 OpenAI 和 Anthropic 正在实施限制以管理推理成本,此举削弱了性能、吞吐量和输出质量。这是一条通往 AI 平台衰退的快车道,并阻碍了开发者在不稳定的基础设施上进行构建。

这一现实要求我们进行战略调整。虽然构建美国 AI 技术栈的整体方法是一个起点,但来自中国硅前沿数据集的证据表明,能效计算优化正成为大规模部署 AI 系统的决定性因素……并将重新定义新世界秩序下的主权。

遏制已不再是一个选项。唯一的选择是竞争。

参与者

这份名单并非包罗万象。随着中国迅速增强其国内半导体制造和设计能力,大量投资正涌入该领域。

以下是我们此次将要介绍的 16 家实体的名称。

资讯配图

以下是其他主要从事 CPU 和 FPGA 设计的逻辑芯片公司。它们不是本文的主题,但我们同样在关注。

资讯配图

分组

我们根据发展阶段、市场应用和固有竞争优势,将这 16 家公司分为 6 组。

资讯配图

这 16 家公司中有 7 家被列入美国实体清单(用 🚩 标记),这限制了它们获取外国生产的晶圆和高带宽内存(HBM)解决方案。当前的实体清单可在 eCFR.gov 上公开查阅。

梯队排名

我知道大多数人反正都会直接跳到这一部分,所以我就先把我们评估的国内厂商梯队排名放上来。这个想法受到了 Nathan Lambert 在其《中国研究实验室》分析中的启发,但它绝不是权威的定论——它带有主观性,不应过于当真。

需要明确的是:这严格来说是一个国内的梯队排名。我们稍后会将其与中国市场可获得的英伟达和 AMD 芯片进行比较,但如果现在就把它们加进来,会混淆此次评估的目的。

资讯配图

从 S 级到 D 级(以及垫底的“狗屎”级)是根据一套评估标准进行排名的,该标准从五个维度评估公司表现:产品、领导力、开发者接受度、商业应用和战略支持

另一个独立的“Edgerunner”(尖端探索者)梯队,是为那些采用新颖硬件设计、有效绕过系统性能效瓶颈的玩家保留的。它们在商业部署方面的信息可能有限或暂缺。这本身并非一个严格的等级排序,而是提醒我们应密切关注这些设计范式进展的信号。

排名标准

分析部分会对评估进行详细阐述——这里的标准仅供参考。

资讯配图

公司简介

术语入门

如果你已经很熟悉了,可以跳过。

在半导体领域的报道中,大量的缩写词可能会让人困惑。更麻烦的是,技术术语和营销术语常常被混为一谈(例如谷歌的“TPU”品牌、算能科技的 TPU,以及中昊芯英的“GPTPU”)。这让散户投资者、政策制定者和资深分析师都感到迷惑。

为了简单起见,这里有一个逻辑芯片分类的入门指南,并说明了我们名单上的每家公司在其中的位置。如果一个实体设计了多个类别的芯片,我们会在每个类别中都提及它。

资讯配图

一般来说,这个列表是按照 AI 工作负载的通用性和能效排序的。GPU 是通用型的,在性能和效率之间取得了很好的平衡,但在能效计算方面不如 ASIC。

ASIC 的迭代速度较慢,因为硬件生命周期长,客户群也更有限,但它们通常是大型超大规模计算公司(本身就是客户)的首选逻辑芯片。

最后,PIM / NDP 芯片是能效最高的逻辑芯片,高出几个数量级,但仍处于实验发展阶段。它们在生产环境中的性能数据还比较有限。

行业巨头

由中国主要科技巨头全资拥有,资金雄厚,能够接触到顶尖人才、拥有稳定的收入来源,并可利用自家的 AI 云平台进行部署和协同设计。它们的战略通常是在机架规模上取胜,而非单卡性能——定制化的互连技术是其一大优势。

华为海思

1991 | hisilicon.com | 私有 | 实体清单 🚩

作为中国垂直整合度最高的英伟达替代者,其基于“达芬奇”架构的昇腾 910A/B/C 系列芯片被集成到 Atlas 板卡/服务器和机架规模的 CloudMatrix 系统中,并配有 CANN 软件栈和光背板。

910C 采用双芯粒封装(约 530 亿晶体管,约 64 个 AI 核),拥有 3D 裸片到裸片的互连结构和 HBM3 内存,是构建跨越 16 个机架的 CloudMatrix 384 系统的基础模块。

其战略是在机架规模上取胜,牺牲单设备峰值性能以换取每机架吞吐量和供应安全。其定价(910B 约 11 万人民币;910C 约 18-20 万人民币)突显了其在总拥有成本上与稀缺的 H100/H200 竞争的优势。

产品已被国有电信运营商、金融机构和互联网平台广泛采用;部分 910C 的交付随着产能爬坡将推迟到 2025 年末。

平头哥 / 阿里巴巴

2018 | t-head.cn | 私有

阿里巴巴的芯片部门,整合了中天微和达摩院的芯片团队:一方面是开源的玄铁 RISC-V 核心,另一方面是含光 NPU 和倚天 CPU。

含光 800(12纳米工艺;拥有大容量片上 SRAM,支持灵活精度)被设计为阿里巴巴内部工作负载(如图像/视频处理、推荐系统、城市大脑)的高效推理引擎。

专利调查显示,其下一阶段将转向芯粒(chiplet)和以数据流为中心的互连结构,采用自适应分片和激进的混合精度技术。

其应用主要限于内部及合作伙伴的云平台:盘久/HPN7.0 互连架构可连接数千至数十万个加速器;从 DCN+ 迁移到 HPN 显示出显著的端到端训练增益。

ALink 的目标是实现类似 NVLink 的扩展能力,同时支持国际和国内芯片——这是一条通过垂直整合来控制成本和延迟的路径,而不是追求单卡的峰值性能。

昆仑芯 / 百度

2011;2019年分拆 | kunlunxin.com | 私有

源自百度的 XPU 产品线,与百度智能云和飞桨深度集成:第一代产品采用三星 14 纳米工艺,已广泛出货;昆仑芯二代(7 纳米,XPU-R 架构)扩大了市场基础;P800(XPU-P)则通过机架规模的超节点机柜,瞄准大语言模型的训练和 8 位推理市场。其优势在于与百度的软件和服务生态紧密协同。

商业应用的实例包括招商银行的 AI 芯片项目(P800 支持在 8 卡节点和集群上运行完整的 Qwen/DeepSeek 系列模型),以及百度云自身将 P800 芯片集群从万卡扩展到三万卡规模的计划。

四小龙

这是一个非正式的行业术语,指四家资金雄厚、设计新颖的无晶圆厂半导体公司。它们的前景普遍被看好。所有这四家公司都已宣布计划上市或已提交招股说明书。

燧原科技

2018 | enflame-tech.com | 私有

这是一家位于上海的 ASIC 公司,由 AMD 前高管(赵立东、张亚林)领导,其产品优化方向是横向扩展的系统,而非追求单芯片的跑分王。

腾讯既是其主要投资者,也是其技术的试验场;国家大基金的参与则为其提供了长期稳定的资本支持。2024-25 年,公司在推动大规模推理产品(S60)的同时,也更新了训练产品线(推出了集成更高片上内存和互连的“训推一体”L600)。

其市场表现真实可见:S60 已出货约 7 万片;在东数西算项目下,甘肃庆阳部署的 10,016 卡 S60 集群是一项标志性成就;早期的省级集群(如宜昌)和在腾讯多种业务中的广泛应用也增强了其信誉。

其软件生态(驭算/鉴算)仍落后于 CUDA,但公司正投入资源以弥补算子覆盖和移植成本的差距。在 2025 年世界人工智能大会(WAIC)上,燧原展示了为 R1-671B 模型准备就绪的一体机,再次强调了其在可见工作负载层面的验证能力。

摩尔线程

2020 | mthreads.com | 私有(已提交招股书) | 实体清单 🚩

这家位于北京的无晶圆厂 GPU 厂商由前英伟达中国区总经理张建中创立;获得了大量资本支持(字节跳动、腾讯、中国移动旗下投资机构、联想创投),并通过 MUSA 软件栈在苏堤、春晓、曲院三个系列产品上快速迭代。被列入实体清单后,其生产从台积电转向了中芯国际。

其市场接受度正在提高:中国信通院验证了 MTT S4000 可用于大模型推理;部署案例遍及快手(千卡 GPU 集群)、三大电信运营商以及大学和能源领域的合作伙伴。

数据中心产品(S3000/S4000)是其 B2B 业务的基石,而边缘计算模块 E300(搭载 AB100 AI SoC,约 50 TOPS INT8 算力)则显示了其在消费和边缘市场的雄心。

虽然性能落后于英伟达的顶级产品,但其分销渠道、资本实力和生态系统合作为其在国内市场的持续发展提供了保障。

沐曦集成电路

2020 | metax-tech.com | 私有(已提交招股书)

这是一家位于上海的 GPGPU 初创公司(创始团队来自 AMD),拥有三个产品系列——用于推理的“曦思 N”、用于训练和计算的“曦云 C”以及用于图形的“曦彩 G”——此外还有类似 CUDA 的 MXMACA 软件栈和 MetaXLink 互连技术。

其科创板上市申请已于 2025 年 6 月 30 日被受理;已出货超过 2.5 万片;下一代采用双芯粒设计的 C600 宣称配备 144 GB 的 HBM3e 内存。

其商业推广主要依赖于运营商、省级计算平台和国家级分销商:已披露通过集成商获得了数十亿人民币的订单,并与临港集团建立了合作关系,部署了多个千卡级集群。

早期产品依赖海外的 HBM 和代工厂;而较新的 N300/C600 则宣称基于国产供应链,这标志着公司在转向风险规避的同时,仍将高性价比的推理产品作为市场突破口。

壁仞科技

2019 | birentech.com | 私有 | 实体清单 🚩

作为国内半导体设计领域的早期明星,这家位于上海的公司围绕其 7 纳米芯片 BR100 组建了来自英伟达、AMD、华为和阿里巴巴的明星团队。

然而,在被列入实体清单后,公司经历了领导层动荡,并从台积电转向中芯国际的 N+2 工艺,推出了简化的衍生产品(壁砺 106/110/166)。其软件栈(BIRENSUPA)是为 AI 优先设计的,而非消费级图形,并且似乎不兼容 CUDA。

在商业上,壁仞科技落后于其他新兴的“小龙”,但仍获得了国有电信运营商/云服务商(中国移动/电信)、商汤科技、国家电网和上海人工智能实验室(千卡 GPU 集群)的订单。

其新的液冷 OAM 产品线和与熙智科技、中兴通讯合作的“光合原”光子计算超级节点,目标是在 2000 卡规模上实现高密度和高效率;首个落地项目是上海仪电智算中心。

上市领军者

已上市的公司,在商业部署方面取得了相当大的成功。

寒武纪

2016 | cambricon.com | 688256.SH | 实体清单 🚩

源自中科院和中国科大的神童团队,将早期的国产加速器研究(电脑)商业化,推出了 ASIC 产品线。在经历了早期的高光时刻(麒麟 970 时代)和低谷(被列入实体清单,失去智能手机市场)后,其思元 590(采用国产 7 纳米工艺)在某些指标上达到了 A100 级别的训练性能,催化了公司的复苏。

2025 年上半年,公司收入飙升(4 亿美元),但客户高度集中(前五大客户占比约 95%,单一客户占比约 79%——据传是字节跳动)。

寒武纪凭借其训练级产品(现有的思元 590 和即将推出的 690)再次成为市场焦点,这得益于其巨大的研发投入(2024 年约 10.7 亿人民币,占收入的 91%)。

尽管存在客户集中风险,但其技术知识产权、政府支持以及重新获得客户青睐,已将外界对其的叙事从“陨落的明星”转变为“开启第二幕”。

海光信息

2014 | hygon.cn | 688041.SH | 实体清单 🚩

最初由 AMD、成都海光微电子和成都海光集成电路设计公司合资成立。海光以 CPU 闻名,目前正重组进入加速器领域,推出了名为 DCU 的类 GPGPU 产品(兼容 CUDA 环境)。据报道,其 DCU8100 加速器在某些精度下的性能与 A100/MI100 相当。2025 年的一项重大举措是宣布与中科曙光合并,以加强其在高性能计算(HPC)领域的整合。

目前,其加速器业务似乎正依托现有的 HPC 和政府渠道推进,而 CPU 仍是其收入基石。随着国产替代品的成熟,与曙光的合并可能会加速其在系统级产品上的发展,尤其是在异构计算系统领域。

专业厂商

由初创公司和老牌企业组成,专注于 ASIC 和其他专用硬件范式。虽然昇腾、含光 800 和寒武纪的 MLU 系列在技术上也属于 ASIC,但它们的市场地位使其区别于这一类别。

算能科技 / SOPHON

2016 | sophgo.com | 私有 | 实体清单 🚩

该公司源于比特大陆,整合了 SOPHON(云端/边缘 TPU)和晶视智能(边缘视觉 SoC),构建了一个端到端的 AI 技术栈,产品涵盖 BM1684X/1688 到最新的数据中心 TPU BM1690,以及 SG 系列 RISC-V CPU 和 MLOps/工具链。

其最新的旗舰产品 SC11-FP300(基于 BM1690,配备 256 GB LPDDR5X 内存,带宽约 1.1 TB/s)和一个 128 TPU 的液冷超级节点,目标是在大规模场景下进行大语言模型推理;其 SophNet 服务则预置了流行的国产模型。

历史上,算能在视频分析、城市和工业 AI 领域实力最强;2025 年标志着其向主流大语言模型市场的转型。

中国信通院已验证 SC11-FP300 能够对 DeepSeek-R1-671B 模型进行推理;虽然尚未获得更广泛的超大规模数据中心的采用,但其产品迭代速度和平台化战略正朝着正确的方向发展。

中昊芯英

2018 | zhcltech.com | 605255.SH (待上交所问询)

这是一家位于杭州的 TPU 新兴公司,由一位谷歌 TPU 前成员(曾参与 v2/v3/v4 的研发)创立;公司主推名为“刹那”(Chana)的训练芯片,支持 1024 颗芯片的扩展,并提出了首个“泰泽”集群概念。其市场定位是在性价比上积极挑战海外 GPU。

试点项目已初见成效:广东联通的初期 32 节点 TPU 中心计划扩容,中国移动天津公司与太极计算机合作建设了 TPU 智能计算中心,浙江大学也搭建了研究平台。

但公司的资本运作(借壳上市、异常的交易信号)和激进的收入声明也引发了一些疑虑。

墨芯 AI

2018 | moffettai.com | 私有

该公司创立于硅谷,现总部位于深圳。作为一家极具潜力的稀疏优先加速器公司,其产品(Antoum 芯片/S4/S10/S30)专注于算法与硬件的协同设计,以实现高效率的推理。相关工作还涉及存内计算/近数据处理以及编译器/运行时研究。

其在公开技术领域的亮相包括 Hot Chips 会议、MLPerf 基准测试,以及大量关于稀疏性和近数据计算的学术论文。

虽然尚未获得大规模超大规模数据中心的采用,但公开的推理基准测试结果支持其 SparseOne 加速卡用于大型模型的部署。

其核心赌注在于,结构化稀疏的大语言模型与以内存为中心的设计相结合,一旦软件成熟度和工作负载匹配,就能带来超乎寻常的性能功耗比。

昕原半导体

2019 | innostar-semi.com | 私有

这是一家专注于 ReRAM 和存内计算(PIM)的公司,通过将计算与存储单元并置(其“ATOM”存算一体技术)来解决“内存墙”问题。

公司获得了国内外资本的混合支持(如 KPCB、泛林集团、蚂蚁集团、字节跳动),这既反映了其技术雄心,也体现了其战略重要性。

这是一个平台级的项目,其成功取决于可靠的 ReRAM 阵列、编译器/分片工具链,以及将这些部件与 Transformer 时代的数据流相结合的能力。由于性能数据尚未公布,商业应用也未见报道,将其列入更多是基于其技术方向的考虑,而非对其具体产品的认可。

落后巨头

已成立或较老牌的 GPU 公司,其商业应用落后于新的竞争对手。

天数智芯

2015 | iluvatar.com | 私有

该公司是 GPGPU 领域的早期入局者(成立于 2015 年),拥有 IxRT SDK 和天垓(训练)/智铠(推理)两个产品线。

尽管经历了领导层动荡(董事长/CEO 变动、调查),但公司在技术进步和融资方面仍在继续。其天垓 100 是首批国产 7 纳米训练 GPU 之一;后续产品在特定任务上力求达到 A100 级的基线水平。在能效计算分析中,天垓 150 的性能和效率略低于 A100。

其市场应用偏向于产业联盟和研究机构:在北京智源人工智能研究院(BAAI)训练超过 700 亿参数模型,以及在国家超级计算无锡中心的集成,都展示了其技术能力;但在异构云环境中的市场份额有限。

其战略更侧重于生态系统建设和试点项目,而非争取大型单一客户。

登临科技

2017 | denglinai.com | 私有

这是一家专注于特定细分市场的 GPU/加速器供应商,其 Goldwasser II 系列产品覆盖了从 15 瓦到 150 瓦的多种规格(从 MXM 到 PCIe 接口)。

其市场定位强调在低功耗范围内实现高密度的 INT8/FP16 性能,而不是与数据中心训练芯片进行正面竞争。

在商业上,最引人注目的活动是与联想合作的“AI+PC”项目;除此之外,大规模应用案例有限。

给人的感觉更像是一家面向边缘/嵌入式市场的公司,而非超大规模数据中心的竞争者。

缺乏可行性

这些公司迄今为止在 AI 加速器领域未能证明任何商业可行性,但由于其在行业中的资历,不得不提及。

景嘉微

2016 | jingjiamicro.com | 300474.SZ | 实体清单 🚩

这家位于长沙、有军工背景的无晶圆厂 GPU/SoC 设计公司是中国历史最悠久的 GPU 厂商之一,被认定为国家级专精特新重点小巨人企业。

这一地位既带来了实际利益(无偿拨款、优先获得大基金支持、政策性银行信贷),也带来了软性优势(采购优先、声誉信号)。其创始人和高管来自中国电子科技集团第 38 研究所,并拥有国防科技大学的背景。

其产品应用主要集中在航空电子/雷达和政府 PC/工作站的国产化领域——几乎没有证据表明其产品用于现代 AI 工作负载。

2025 年上半年,公司收入同比下降约 45%,其中 GPU 业务下降约 63%,表明其仍然严重依赖军工和国有企业需求。

公司完全未能将其早期优势或政府支持转化为 AI 工作负载的产品开发和商业部署。其 JM11 芯片系列似乎是其留在赛道上的最后一搏。

数据与方法论

我将在下表中总结本次分析的范围,然后对一些我知道会在评论区引发争议的领域进行展开说明。

我所关注的属性围绕着能效计算基础、商业应用和领导力。在缺乏可证实的商业进展的情况下,战略支持或在备受瞩目的东数西算和智能计算中心项目中宣布的合作会有所帮助,但不能替代实际业绩。

推出“硅前沿”数据集

我已将关于国内外芯片性能规格的第一方和可信第三方资源汇编成一个单独的文件,我称之为硅前沿数据集(暂时想不到更好的名字)。

这个我在此公开分享的初始版本,整合了来自公司资料、证券文件、半导体会议演示、知名券商研究员和行业分析师等的性能数据。由科技博主或一般科技媒体报道的二手数据更多是猜测而非事实,所以我忽略了它们,尽管这可能会牺牲数据集的相对完整性。

资讯配图

除了基本规格,还有能效计算指标和手动计算的各种情况下的理论推理吞吐量。这些内容将在未来版本中扩展。

现在,让我们快速浏览一些原始性能数据。

原始性能

从总体上看,美国和中国加速器之间的性能差距相当明显。中国加速器的计算吞吐量中位数为 96 TFLOPS,比美国加速器落后整整 722 TFLOPS——这大约相当于领先当前产品四代的特斯拉 V100 的性能。

中国顶级性能的加速器可以超越 A100,但如果不使用稀疏化技术,则无法与 H100 抗衡。

资讯配图
资讯配图

内存带宽速度也呈现类似的情况。纯粹从硬件角度看,HBM 的限制阻碍了大多数中国芯片的内存性能,尽管高端加速器的性能大致与 A100 相当。

推理加速工具包正试图绕过这个问题,同时长鑫存储也在努力提高国产 HBM 的生产质量。

资讯配图
资讯配图

在我们有数据的中国加速卡中,性能最佳的系列似乎来自华为、燧原科技和沐曦。我们尚未找到寒武纪最新加速器思元 590 的性能数据,但从行业采用趋势来看,它也应该是一款顶级产品。

壁仞科技被排除在此列表之外,因为其记录的性能数据来自其台积电生产的芯片,自从被列入实体清单后,这些芯片已无法获得。

能效计算性能

我们首先关注两个主要的能效计算指标——计算能效和内存能效。它们分别以 FLOPS/瓦 和 字节/焦耳 来衡量。这两个指标都预示了我们在有限的能源预算下可以期待什么样的性能。

能效计算从业者的目标是最大化每焦耳产生的 token 数量(同时满足质量和吞吐量门槛)。AI 加速卡不必拥有绝对最佳的性能指标——超过一定的规模、速度和功耗阈值后,它们只需足够好用以处理行业标准模型即可。因此,中国生态系统正趋向于将 DeepSeek / UE8M0 FP8 精度作为新建立的模型性能标准。

有了这些数据,我们可以通过计算运行特定模型(此处为 Llama 3.3 8B)在特定精度(FP16,即每个参数 2 字节)下所需的操作次数,来手动计算每焦耳 token 数。

在确定操作是计算密集型还是内存密集型后,我们可以求解生成单个 token 所需的时间(秒/token),然后取其倒数得到峰值理论吞吐量(token/秒)。最后,根据硬件的能耗,我们求解出每焦耳 token 数。

然而,当应用到生产工作负载中时,美国芯片的这两个优势会复合放大。在一次理论上的 8B 参数模型推理运行中,美国加速器可以达到约 200 token/秒。而大多数中国加速器只能达到其四分之一左右。

资讯配图
资讯配图

美国和中国芯片之间的能效差距比原始性能差距要小,但仍然存在。总体而言,美国芯片每焦耳产生的 token 比中国芯片多约 58%。峰值吞吐量对这个数字影响很大——毕竟,时间就是能源。

资讯配图

有趣的是,在美国芯片系列中,英伟达 H20 是能效最高的,达到 1.1 token/焦耳,甚至超过了 Blackwell 系列的 0.95。

除了墨芯 AI 的 SparseOne S30(原生支持高达 32 倍稀疏度),昇腾 910C 是中国能效最高的芯片,为 0.86 token/焦耳,而 SparseOne S30 的最大值高达惊人的 2.72 token/焦耳。

除了墨芯,该数据集中几乎所有的 GPU 和 TPU 都被困在约 1 token/焦耳的效率边界之下。

如果昇腾 910D 的性能如传闻所述——高达 900 TFLOPS(假设为 FP16),内存带宽 4,800 GBps,功耗 350W——这将使其峰值吞吐量达到约 333 token/秒,能效等级为 1.27 token/焦耳。

这将使其在不使用稀疏技术的情况下,推理性能达到美国芯片的第 75 百分位,同时成为市场上能效最高的芯片。

资讯配图

算力(并非)你所需的一切

如果分析到此为止,会相当不尽人意。关于昇腾 910D 的传闻固然不错,但我们关心的是判断中国在今天能否在国内满足其推理需求。我们不能让完美——或者说,前沿技术——成为足够好的敌人。

为什么我不太关心原始的 FLOPS?首先,如果我那么做,分析会变得不那么有趣;其次,这是一个误导性的指标,不能全面反映加速卡的整体效用。硬件只是整个拼图的一部分。

超过某一个临界点后,我们不再关心一张加速卡是否是同类最佳。我们只关心它是否能完成任务。

我知道这个说法会引起一些人的不满。如果由中国评论员说出,听起来可能像是在自我安慰。众所周知,大多数开发者都希望使用最好的芯片和软件。

但是,既然美国似乎热衷于尽可能地将英伟达与中国买家隔离开来(卢特尼克部长坚持要让中国工程师对美国技术栈“上瘾”的说法,简直是赤裸裸的鸦片战争翻版……很难相信这不是故意的),我们不妨试着弄清楚,一个合格的国产替代品应该具备什么条件。

考虑到这一点,我们如何确定什么才算作中国 AI 生态系统的足够好?

行业认证

如果不设定一些准则,这可能会变成一场完全凭感觉的辩论。我们可以设定一个任意的门槛,比如“英伟达 A100 级别”,但这仍然感觉很松散。

Paul 和我从世界人工智能大会(WAIC)得到的一个启示是,业界普遍将 DeepSeek R1 671B 视为 AI 时代的“Wintel”标准。

这一次,取代“Intel Inside”贴纸的是,像算能科技、燧原科技和摩尔线程等厂商的展位上,都展示了他们的一体机(超级节点),并大声宣称能够运行完整版的 DeepSeek R1,也就是单精度 671B 参数的模型。说真的,这个品牌标识随处可见。

当这些芯片每张售价数万人民币时,不知情的采购团队是否应该相信这些供应商的话?这是一个重大的问题,即使是美国的新云厂商也在努力解决——不仅是芯片是否能用,还有我托管它们是否能盈利。

幸运的是,一个第三方认证生态系统正在兴起,以提供清晰度。中国信息通信研究院(CAICT),作为工业和信息化部(MIIT)的下属机构,负责对各种硬件和软件应用进行第三方基准测试、评估和认证。

最近,他们似乎开始颁发“AI 芯片与大模型适配测试”证书,验证申请厂商的硬件能够合格地运行 DeepSeek R1 671B 的推理。

这在几个方面很有用:

  1. 它毫无疑问地证实了 DeepSeek R1 不仅仅是市场推广,它实际上已被采纳为行业基准测试。
  2. 它有助于我们理解中国的私营和公共部门如何为供应商和采购商提供操作上的清晰度。
  3. 它给了我们一个具体的足够好的门槛来进行我们自己的评估。

算能科技 SC11-FP300 (2025年6月26日颁发)

SC11-FP300 是算能科技最新的 TPU 芯片——BM1690——的 PCIe 形态。它使用 LPDDR5x 内存,并且比 GPGPU 更注重能效。这种对能效的强调是算能科技作为比特大陆最初的加密货币挖矿 ASIC 业务的传统。

与 MTT S4000 不同,SC11-FP300 已被确认可用于 FP8 精度的工作负载——这对于未来的训练和推理需求非常重要。

资讯配图

来源:公司微信频道。


摩尔线程 MTT S4000 (2025年4月30日颁发)

MTT S4000 是摩尔线程产品线中最新的数据中心卡。它是一款通用 GPU(GPGPU),采用摩尔线程的第二代芯片架构——“春晓”。

它配备了 48GB 的 GDDR6 内存,这种内存通常用于英伟达的消费级 GPU。除了 KUAE,摩尔线程在展位上还展示了一款 OAM 模块和一款边缘设备。


随着其他“四小龙”寻求上市,我预计我们会看到类似的中国信通院认证,作为其在 IPO 过程中商业化应用的一个积极信号。

计算“足够好”的性能

MTT S4000 和 SC11-FP300 并非我们国产芯片制造商库存中的最佳芯片,但它们确实为确定我们的“足够好”门槛提供了有用的例子。随着新的中国信通院认证公开,我们可以更新这个先验标准。

纯粹从能效计算的角度来看,这两款芯片仍然落后于五年前英伟达的 A100 系列。但它们提供了足够好的性能,值得我们仔细研究。

资讯配图

星号表示数值由已确认的性能数据转换为目标精度(例如 400 TOPS INT8 == 200 FLOPS FP16)。复选标记表示与该精度格式兼容。

首先,我们需要评估哪个过程耗时更长:是处理整个提示,还是将权重从内存移动到逻辑芯片进行处理。这决定了预填充(prefill)阶段是计算密集型还是内存密集型。

我们取这两个值中较大的一个(以秒为单位),然后将其加到解码输出序列所需的总时间上。解码阶段几乎总是内存密集型的。

资讯配图

从这个有限的数据集来看,中国信通院似乎认为,对于单张卡上的 8B 参数模型,约 47.6 tokens/秒的峰值吞吐量是合格的。

请记住,所有测试的硬件都以多卡服务器节点配置出现——中国信通院的测试很可能是在这些系统上进行的,而不是单卡推理。

对于一个 8B 模型来说,近 13 秒的推理时间对我来说有点长了,即使是像 A100 这样三代前的卡也能在时间减半、能效更高的情况下完成。无论如何,这是一个不错的起点。

因此,我们将根据中国信通院的建议,为 8B 模型上的 FP16 推理设置我们的合格门槛:

资讯配图

有了这些要求,我们现在可以进行比仅凭原始性能规格更深入的分析。

技术分析

重申一下,三重产品优势是指在单个维度(能效、吞吐速度、模型质量)上适度的提升,在相乘后产生的复合效应。

这意味着,即使硬件在效率和吞吐速度上只是足够好,但在分布式推理、稀疏内存操作、混合精度等方面的协同创新,可以降低计算复杂性以适应这些限制。更不用说还有充足的剩余电力来支持初始的能源足迹。

虽然英伟达和 AMD 无疑在推出高质量的硬件,但这些系统一直停留在同一个等效效率边界上:自 2016 年以来约为 0.52 (± 0.21) tokens/焦耳。

较新的系统拥有极其强大的计算性能和提升的内存速度,但如果不控制新芯片的功耗,它们的能效并没有太大改善。

如果一个生态系统成功地协同设计模型、硬件和推理环境,那么该生态系统的原生参与者将受益最大。换句话说,创新正在各个方面发生。

1. 产品性能

佼佼者:华为、燧原科技、沐曦、墨芯 AI。

中国信通院的认证为行业采纳和可接受性提供了有用的基准。华为、燧原科技、摩尔线程、沐曦、海光信息、天数智芯、算能科技墨芯 AI 各自至少有一款合格的卡,这是根据推断的中国信通院指导标准得出的(在 Llama 3.3 8B 上,tokens/焦耳 >= 0.14,峰值吞吐量 >= 47.6)。

只有华为、燧原科技、沐曦墨芯 AI 的卡在推理性能上接近 A100。

我们首先将所有有可用数据的供应商的 SKU 绘制在吞吐量与功耗的散点图上。这突显了加速器的性能和能效特性。

资讯配图

提醒一下,我们在 Llama 3.3 8B 模型、FP16 精度下的足够好能效计算门槛是:

  • 吞吐量: τ_sec >= 47.6 tokens/秒
  • 能效: η >= 0.14 tokens/焦耳
资讯配图

基于 Llama 3.3 8B 案例的能效计算矩阵。我们的峰值吞吐量和能效边界在 MTT S4000 数据点处相交。红色区域表示该 SKU 未达到吞吐量最低要求、能效最低要求或两者均未达到。位于此交点左上方的所有产品都属于“足够好”。


读者可能还记得在 2025 年世界人工智能大会上讨论的“泛在边缘智能”里程碑(紫色区域)。这是国内模型-芯片协同设计的指路明灯,其定义如下:

  • 吞吐量: τ_sec >= 100 tokens/秒
  • 功耗: E < 20 瓦
  • 能效: η >= 20 tokens/焦耳

应用这些限制后,16 家供应商中有 10 家至少有一个 SKU 达标。由于登临科技、中昊芯英、昕原半导体和平头哥的信息不足,无法将它们置于此图上,尽管昕原半导体和平头哥的片上内存方案可能会使它们处于高能效的梯队。

资讯配图

然而,壁仞科技和寒武纪的合格产品来自它们被列入美国实体清单(2022年)之前的旧一代芯片。此后,两家公司都将晶圆生产转移到了中芯国际,其新产品线的性能数据也更难获取。

因此,为公平起见,我们应将它们从名单中移除。这并不意味着壁仞科技的壁砾 166 系列或寒武纪的思元 590 系列的新芯片不合格——只是我们目前还没有相关数据。

这样一来,12 家公司中还剩下 8 家——华为、燧原科技、摩尔线程、沐曦、海光信息、天数智芯、算能科技墨芯 AI——仍在竞争之列。

资讯配图

带有 A100 性能过滤器的能效计算矩阵。由蓝色菱形代表的英伟达 A100 提供了一个有用但已过时的性能里程碑。


谈到显著的性能差距,如果我们将合格门槛提高到接近 A100 的水平,大多数供应商都会出局。在我们拥有数据的 39 款原始加速卡中,只剩下 4 款:华为昇腾 910C、燧原科技云燧 T20、沐曦曦云 C500,以及墨芯 AI SparseOne 系列。

资讯配图

我将墨芯 AI 也包括在内,因为其针对特定硬件的创新实现了高达 32 倍的高稀疏因子,这在功耗低于 250W 的形态下,产生了极其高效的计算。

虽然 32 倍的情况很显眼,但即使是 16 倍和 8 倍也足以满足中国信通院的标准。

值得注意的是,除了沐曦,这个名单上的其他产品都是 ASIC!沐曦是其中唯一的通用 GPU(GPGPU)。

资讯配图

来源:2025 年世界人工智能大会。沐曦曦云 C500 芯片及其继任者曦云 C600。C600 似乎采用了双芯粒设计,类似于华为昇腾 910C 和英伟达 Blackwell B200。

内存对比

值得注意的是,除了摩尔线程、算能科技和墨芯 AI,几乎所有加速器似乎都需要至少 HBM2E 级别的内存才能进入这个名单。

大多数国内芯片设计商使用 HBM2E 或更早期的版本,有些则使用 GDDR6 或 LPDDR5x 内存。寒武纪、燧原科技、壁仞科技、沐曦天数智芯在他们最新的芯片中都使用了 HBM2E,而燧原科技即将推出的邃思 L600 据传是首批采用 HBM3 的产品之一。

在首次被列入实体清单后直到其思元 590 芯片问世期间(2022-2024年),寒武纪使用了 LPDDR5 内存,墨芯 AI 在其低功耗的 SparseOne 卡中也使用了 LPDDR4x。最后,昆仑芯摩尔线程都使用 GDDR6 内存。

内存技术的散热、权衡和物理限制将是未来文章的主题。目前可以肯定的是,国内芯片设计商最终将不得不与自主的国产内存芯片供应链对齐,而这目前仍然是更先进芯片生产的瓶颈。

稀疏计算

墨芯 AI 之所以能脱颖而出,关键在于其稀疏计算的方法。在神经科学中,众所周知,人类的大脑在计算中利用了高度的稀疏性——事实上,对于任何给定的输入,只有不到 2% 的神经元会实际激活。这是人脑具有相当高计算能效的一个主要原因。

在 AI 工作负载中,“稀疏性”指的是神经网络参数或激活中零(或接近零)值的比例——零越多,需要处理的操作和数据就越少。像英伟达的 GPU,最多也只能原生支持 50%(2倍)的稀疏度。

稀疏性可以用百分比或倍数来表示(例如,50% 的权重设为零 = 2 倍稀疏度,87.5% = 8 倍,96.9% = 32 倍)。一些研究表明,如果处理得当,大语言模型可以被稀疏化到很高的程度(通常是 50-90% 的稀疏度),而准确性损失很小。

几年前,墨芯的联合创始人 Ian Chen 和 Zhibin Xiao 发表了一篇论文,概述了他们解决这个问题的方法。Antoum 芯片是他们硬件产品线 SparseOne 卡的核心,能够实现高达 32 倍的稀疏化。

虽然稀疏化存在固有的准确性与速度的权衡(毕竟你丢失了一些信息),但团队发现,在准确性损失最小的情况下,吞吐量(因此也包括能效)得到了显著提升。

资讯配图

来源:墨芯 AI (arXiv, 2022)。

他们在论文中提到的 S4 功耗仅为 70W。而 SparseOne S30 是一款 250W 的型号,之前已在像 BLOOM-176B 这样超过 1000 亿参数的大型模型上展示了生产级的性能——在 8 卡部署中达到 432 tokens/秒。

墨芯 AI 还多次参加 MLCommons 的 MLPerf 推理基准测试,其 SparseOne 系列产品一直获得高分。

特别是 S30,在常见的 LLM 工作负载上,其吞吐量几乎是 H100 的两倍,而能耗却小了 2.8 倍,从而在几乎没有输出质量损失的情况下,将能效提升了约 5 倍。

资讯配图

来源:墨芯 AI, MLCommons。

最后,墨芯的 Antoum 卡被部署在知名 OEM 厂商(新华三和浪潮)的节点上,这表明运行这些硬件所需的定制化工作极少或有限,暗示了其商业可行性。浪潮也是该公司的投资者之一。

未来的墨芯卡已确认将支持 FP8 精度的工作负载。

2. 开发者接受度

佼佼者:寒武纪、摩尔线程、华为、燧原科技、沐曦。

落后者:天数智芯、壁仞科技。

英伟达的 CUDA 生态系统在开发者偏好中仍然高居榜首,而对于像燧原科技、摩尔线程沐曦这样的 GPGPU 设计商来说,兼容 CUDA 是一个积极的采纳因素。

在转译编译器技术上的巨大投入,对于像寒武纪这样的定制芯片设计商来说是一个有利的推动力。而那些推广自家定制语言的非巨头公司,如天数智芯壁仞科技,则正面临困境。

异构框架、转译编译和开源策略将随着时间的推移,共同侵蚀 CUDA 的护城河。

在你问之前,我不会就英伟达的 CUDA 护城河是否以及何时会被国内创新所取代给出明确的答案。但我会强调一些我们可以追踪的促成因素。

如果开发者讨厌使用硬件,那么硬件就毫无用处。在中国之行中,我们与多家中国云服务提供商交流,询问了开发者对各种 SDK 的接受情况。普遍来看,由于 CUDA(甚至 ROCm)拥有更大的现有开发者和故障排除社区,它们仍然比国内替代品更受青睐——这是一个宝贵的护城河。

国内厂商认识到这一点,并试图采取以下三种路径之一:

  1. 寻求 CUDA 兼容性。 燧原科技计划将其 IPO 募资的 20% 用于开发一个兼容 CUDA 的工具链,目标是到 2025 年实现 90% 的算子兼容性,并将迁移成本降低到每人 40 个工时。沐曦也宣布其 C500 系列(以及所有未来的卡)将兼容 CUDA。据报道,昆仑芯的产品线也兼容 CUDA。
  2. 将优势转化为软件。 华为最近宣布将开源其 CANN,以帮助建立其开发者生态系统。像天数智芯和壁仞科技这样的老牌厂商则在推广自己的定制编程语言,但可能因此面临采纳阻力。
  3. 构建转译编译器库。 寒武纪和摩尔线程都在其内部的转译编译器库——启蒙-Xpiler 和 MUSIFY——上投入了大量资源,这些库可以将 CUDA 转换为它们的原生编程语言(BANG C 和 MUSA)。

当然,行业巨头不必担心开发者接受度的问题,因为他们拥有足够的云平台资源来支持大量的硬件研发投资。

而像“四小龙”这样的第三方厂商,如果想获得广泛应用,就必须与超大规模计算公司合作,并通过 CUDA 兼容性来铺平道路。

但华为希望将自己打造成自主半导体生态系统的实际领导者,要做到这一点,他们需要开发者——大量的开发者——来使用 CANN。

在这个过渡阶段,似乎存在一个为构建转译编译器库而生的“抽象层”市场,其作用是将用 CUDA 编写的代码转换为特定硬件的加速器代码。英伟达显然希望尽可能地限制这种做法,并自 2021 年起在其许可条款中禁止此类翻译层。

尽管如此,CUDA 优化和翻译仍然是一个巨大的市场。读者可能还记得 Sakana AI(日本的国家级研究实验室)宣布、撤回又重新推出了自己的 CUDA 工程师职位,而 Y Combinator 在其 2025 年春季的“创业项目征集”中也提出了类似的需求。在中国,中科加禾就是一个例子。

这种方法的挑战在于,第三方优化库总是会落后于第一方库几步。没有软件和硬件设计者之间的紧密关系,针对这些变化的优化需要时间才能普及。

自然地,这将引导极具竞争力的开发者和下游市场转向那些拥有最新加速功能的原生支持解决方案。这就是为什么对于国内芯片设计商来说,在通用库和定制硬件之间实现可靠的转译编译是必备条件。这是基本的网络效应。

摩尔线程 - MUSIFY

举个例子,摩尔线程正在推广其 MUSIFY 工具包,用于将 CUDA 代码转换为其原生编程语言 MUSA(摩尔线程统一系统架构)。如果成功,这将显著降低转换平台的技术壁垒和时间成本。用户推测其工作原理类似于 ZLUDA,后者在运行时翻译 PTX 代码。

寒武纪 - 转译编译

一个由寒武纪(包括两位联合创始人)和中科院计算所组成的联合团队共同开发了一款名为“启蒙-Xpiler”的转译编译器,它可以在更常用的支持库(英伟达 CUDA、AMD HIP 和英特尔 VNNI)与寒武纪专有的类 C 语言 BANG C 之间进行转换。

它可以处理这些转译编译,平均准确率达到 95%(尽管被英特尔的数据拉低了),这超过了传统的基于规则的方法和 AI 原生方法。

资讯配图

来源:USENIX, 寒武纪。


开发者最不想做的事情就是调试,因此他们更偏爱像 CUDA 这样支持良好的语言。此外,转译编译可能需要数小时——平均 3.7 小时——在意识到代码充满错误之前,这是一个漫长的等待。

即使最终编译准确率只相差几个百分点,也可能意味着数小时甚至数天的人工调试。

幸运的是,对于寒武纪来说,虽然启蒙-Xpiler 在这项研究中最具挑战性的操作(Deformable Attention,约 200 行代码)上第一次未能生成功能性程序,但程序员调试它并不需要很长时间:“高级程序员”(软件工程师)需要半小时,“初级程序员”(硕士生)需要 3 小时。

加上最初的 4.5 小时转译编译时间,与需要一周时间的人工转译编译相比,这大约是一天的工作量——在与专业软件工程师一同部署时,生产力提高了约 20-30 倍。

资讯配图

战略分析

除了单个产品的性能,还有一些定性因素需要考察:战略和财务支持者、领导团队以及商业往绩都影响着相对地位。但这一切的大背景是美国出口管制所带来的影响和催化效应。为了描绘这幅图景,我们将从实体清单的影响开始。

1. 实体清单的影响

虽然被列入美国实体清单对像壁仞科技这样的一些先行者造成了沉重打击,但对其他公司来说,这更像是减速带而非万里长城。

其他三家“小龙”——燧原科技、摩尔线程和沐曦——似乎享有后发优势,它们更容易获得大型超大规模计算公司的商业应用。

具体来说,HBM 是限制国产芯片性能的关键瓶颈……但只是暂时的。时间会告诉我们长鑫存储/长江存储能多快地提升 HBM3+ 的产量。异构计算和软件优先的创新正开始相当成功地规避这些瓶颈。

目前,中芯国际较低的良率(约 40%)导致国产芯片的单位成本高于英伟达生产的芯片(台积电的良率根据工艺节点不同在 80-90%)。然而,随着良率的提高,国产芯片的单位成本将系统性地改善。

领导层动荡:壁仞科技

成立于 2019 年的壁仞科技,虽然不是第一家国产 GPU 公司,但曾被广泛认为是早期的宠儿。

其创始人兼 CEO 张文是商汤科技前总裁,拥有哈佛大学法学博士和哥伦比亚大学工商管理硕士学位。值得注意的是,他没有技术背景,但他是一位出色的交易撮合者和猎头:他丰富的经验使他能够组建一个来自华为、阿里巴巴、高通等公司的“复仇者联盟”级别的创始人和高管团队。

仅凭团队,壁仞科技就获得了近 7 亿美元的巨额资本,并与其他超大规模计算公司建立了早期合作关系。

2021 年,张文又为团队增加了一位重量级人物——李新荣,他是前 AMD 高管及其中国研发中心负责人。奇怪的是,他被任命为“联席 CEO”,很可能是为了加强张文在高管职位上所缺乏的技术领导力。

壁仞科技在 2022 年的 Hot Chips 34 大会上首次推出了其旗舰芯片 BR100,并将其定位为英伟达 A100/H100 级别的国产替代品,强调了其强大的 BF16/INT8 吞吐量、灵活的精度处理和高速的互连带宽。在当时,这无疑是一款令人印象深刻的芯片,在多项性能指标上都超过了仅在一年前发布的 A100。

然而,那次会议可能引起了拜登政府决策者的不必要关注。几个月后,壁仞科技被列入美国实体清单,使其无法获得台积电的工艺节点(以及后来的 SK 海力士/三星的 HBM)进行制造。

在随后的风波中,张文也失去了他的两位联合创始人——徐凌杰和焦国方。壁仞科技至今尚未恢复其在国内市场的领先地位。

中国有句成语叫“树大招风”,恰如其分地描述了这个问题。这也可能是为什么大多数中国芯片设计商对其产品线的性能规格都讳莫如深的原因。

内存瓶颈:摩尔线程

被列入美国实体清单对摩尔线程的 HBM 前景也没有帮助——被列入实体清单或受制裁的公司通常被禁止使用来自 SK 海力士、三星和美光这三大国际内存巨头的产品。这意味着它们在国内内存 IDM 上的主要选择是长江存储(YMTC)和长鑫存储(CXMT)。

大多数来自英伟达和 AMD 的前沿芯片都使用 HBM3E 内存,这比受制裁的国内芯片制造商能获得的内存类型更先进。更具体地说,HBM3E 每个内存堆栈的总封装内存带宽速度超过每秒 1.2 太字节(TBps),大约是 HBM2E 的 3 倍。先进的卡片使用多个 HBM 堆栈——4 个、6 个甚至多达 12 个。

摩尔线程使用的是 GDDR6,其速率在 512 GB/s 左右。GDDR 是你在专业消费级游戏 GPU 中会发现的那种内存——质量仍然很好,但与 HBM 相比就相形见绌了。

资讯配图

来源:太平洋证券,CSDN。

据报道,长鑫存储自 2024 年中期以来已经开始生产 HBM2,并已开始与部分行业伙伴测试 HBM3。他们预计将在 2026-2027 年进入 HBM3 和 HBM3E 级内存芯片的量产阶段。

有趣的是,多年来一直在生产堆叠 NAND 芯片的长江存储,似乎正在跨界协助长鑫存储进行混合键合技术的研究,以实现更可靠的堆叠和散热。

也可能是因为摩尔线程同时生产消费级游戏 GPU 和数据中心卡,所以选择使用 GDDR6 而非 HBM2 是为了简化其供应链。毫无疑问,GDDR 在比较中存在相当大的劣势。无论情况如何,实体清单的限制无疑影响了摩尔线程卡片与未受制裁的国内外竞争对手的竞争力。

更低良率,更高单位成本

实体清单正在产生可衡量的系统性影响的一个领域是国内芯片的单位成本。有时,中国公司会在其报告材料中列出特定项目的更详细的销售成本。

在我们的分析中,我们有一个有用的比较:两家“小龙”公司,一家被列入实体清单(摩尔线程),另一家则没有(沐曦)。

为了代表我们的部署成本,美元/TFLOPS 是一个对训练有用的指标,但对推理的信息量较少。我们将使用内存带宽速度的美元成本比率。

资讯配图

H100:由《The NVIDIA Way》作者 Tae Kim 援引 Raymond James 的二手估算。沐曦:尚未被列入实体清单。C 系列卡可能由台积电代工,正在向中芯国际过渡。摩尔线程:被列入实体清单,使用中芯国际。

H100 在内存带宽投资回报率上以微弱优势领先于 C500,这得益于其更先进的 HBM3 内存堆栈,而 C500 使用的是 HBM2E,尽管 C500 的生产成本比 H100 低约 28%。

尽管性能数据较低,MTT 数据中心卡系列的成本却是 H100 的 2.5 倍以上,按 美元/GB/s 计算则高出 11 倍。

由于摩尔线程被列入实体清单(而沐曦没有),其芯片——尽管性能较低——成本却远高于沐曦的竞争产品线(总成本高 2.5 倍,投资回报率差 11 倍)。这使得摩尔线程仅在硬件上就处于严重劣势。

这是实体清单对下游客户可用工艺节点产生的典型影响。良率——即从一个晶圆上成功切割出的裸片数量除以总潜在裸片数量——将晶圆生产成本摊销到所有售出的芯片上。

普遍认为,对于更先进的工艺节点,中芯国际的良率目前在 30-40% 之间,而台积电则为 80-90%。在其他条件相同的情况下,台积电能够将其晶圆生产成本分摊到比中芯国际多一倍的芯片上。

资讯配图

来源:Bismarck Analysis, Granite Firm, SemiWiki

关于国内逻辑和内存芯片制造供应链的更深入探讨将是未来文章的主题。

短视带来的意想不到的后果(UCM)

不可否认,缺乏来自外国供应商的尖端 HBM 正在阻碍国内芯片的竞争力。然而,有办法绕过这个问题。在 2025 年 8 月 12 日的一次戏剧性发布会上,华为公布了一款名为统一缓存管理器(UCM)的新软件工具,作为在无法获得 HBM 的情况下加速训练和推理工作负载的方法。

具体来说,UCM 构建了一个三层存储架构,将大语言模型的 KV 缓存分割到不同类型的内存中:

  • HBM 用于极其常用的数据,实时高频访问。
  • DRAM 用于平衡的方法,存储中等频率的数据。
  • SSD 用于低频数据。这避免了芯片中显存容量的瓶颈,并利用更便宜、更容易获得的存储空间来存放低频值。

这将解锁惊人的长上下文窗口,而无需更大的 HBM——这对于 token 量不断膨胀的推理模型至关重要,并在长鑫存储提升产量期间克服了 HBM 禁令的障碍。

最终效果是在性能、能源和财务成本上实现了三重优化:

  • 首个 token 延迟降低高达 90%
  • 将 KV 缓存分片到多种内存类型,使推理上下文窗口扩大 10 倍
  • 智能路由数据“热度”使 tokens/秒 提高 2-22 倍

华为计划本月开源 UCM,这将为所有目前受 HBM 限制的国内芯片公司带来系统性的提升。虽然在单卡上的好处可能有限,但拥有多种内存类型(SSD、DRAM、SRAM)的超级节点(多卡集群)将看到显著的好处。更不用说云规模的部署了。

异构计算

与 UCM 利用不同内存类型的相对优势一样,异构计算根据不同芯片的相对优势来优化和分配工作负载。

Paul Triolo 和我过去曾写过关于异构计算进展的文章。我只想重申,由主要超大规模计算公司和研究实验室赞助的大型项目,通过异构(多供应商)计算集群,在训练和推理性能上取得了比同构集群更好的效果。

这是上海市政府“AI+制造”计划的关键部分——构建一个低延迟、分布式的工业“智能计算云”。

最近被海光信息收购的超级计算公司中科曙光也宣布了 [ ],这是一个与 20 家其他硬件公司、OEM 和研究实验室的高调合作项目,旨在开发和推广大规模异构计算系统。曙光已经推出了一款新的超级集群产品来展示这些能力。

资讯配图

来源:曙光微信频道。

“与封闭系统相比,曙光 AI 超级集群系统不仅通过其紧耦合设计实现了与单机同等的高效运行,还支持多品牌 AI 加速卡,并兼容 CUDA 等主流软件生态,为用户提供了更开放的选择,显著降低了硬件成本和软件开发适配成本,从而保护了初期投资。”

曙光公告中的这段话至关重要。功能性异构不应仅在实体清单和贸易战的背景下被考虑。它本质上是一种反脆弱的经济范式,将随着时间的推移降低训练和推理工作负载的单位成本。

2. 战略支持

佼佼者:华为、平头哥、燧原科技、摩尔线程

落后者:天数智芯、壁仞科技

失败者:景嘉微、登临科技

在我们的分析中,政府资金的作用远不如与已有的超大规模计算公司(腾讯、阿里巴巴、字节跳动等)建立战略和/或财务关系重要。

与超大规模计算公司或其企业风险投资(CVC)的合作可以为后续的商业应用铺平道路,正如燧原科技与腾讯之间的紧密关系所证明的那样。

虽然摩尔线程拥有名单中最高的私募估值,但鉴于腾讯(和美图)的支持,燧原科技的商业应用规模更大。

壁仞科技沐曦没有明确的超大规模计算公司的财务支持,但两者都与中芯国际的 CVC 有着重要关系,这可能意味着更快的迭代周期。然而,自 2022 年被列入实体清单以来,壁仞科技的周转速度客观上较慢。

天数智芯登临科技缺乏重要的战略支持者,这可能导致其市场应用较为平淡。

最后,墨芯 AI 和昕原半导体共同拥有蚂蚁集团(间接也包括阿里巴巴)作为战略支持者。昕原半导体的股东名单中还包括字节跳动和泛林集团。

“中国制造 2025”产业政策常被认为是国家主导在高科技领域“挑选赢家”的蓝图,半导体行业便是其中之一。然而,在我们这个有限的分析中,这种简单的概括并不成立。

首先,许多这些公司在股东名单上共享相同的投资实体(如国家大基金),这消除了任何独特的优势。

其次,中国的政府资本并非一概而论。

第三,行政团队中过多的政府干预似乎会拖慢发展速度,而非为商业应用打开大门。

因此,不应盲目相信中国政府的青睐或支持是成功的保证。相反,我们更看重与成熟科技巨头的战略或财务关系。这些巨头通常拥有最成熟的产品,更快的迭代周期,以及迄今为止最强的商业应用。

!(https://global-uploads.webflow.com/64a66b9e262a392944a49931/66dcb54e5209c13d964f9f75_Frame%21%20(15).png)来源:Crunchbase、彭博社、公司公告。* 中昊芯英正经历一次可能失败的借壳上市尝试,其对象是一家上市的轮胎橡胶公司。来源:特普股份有限公司已连续七次收到上海证券交易所的问询,导致杠杆收购暂停,据报道资金“在途”。


“耐心资本”的角色

“耐心资本”是一个通俗的说法,用来描述那些投资回报周期更长的投资基金(通常与国家有关),它们通常针对被认为对经济增长或产业自给自足至关重要的行业。这并不是说盈利能力和投资回报率不重要,只是它们次于更长期的目标。

国家队

以中国集成电路产业投资基金(“大基金”)为首的国家队,专注于加强国家战略性产业,填补供应链中的空白,并围绕关键技术引导私人资本。

财务回报不是首要任务。目标是建立产业安全。

举个例子,寒武纪早期就获得了大基金的投资。该公司源于中国科学院计算技术研究所,是产学研一体化的典型案例。

大基金的投资既是对一家有前途的半导体初创公司的押注,也是对从国家实验室到商业应用这一路径的认可,旨在鼓励更多前沿研究转化为服务国家战略的市场化产品。

地方基金

相比之下,地方基金与区域性议程紧密相连。它们培育那些将总部、研发中心或生产设施设在其管辖范围内的公司,以加强当地产业生态系统并巩固价值链。

例如,上海集成电路基金的使命是通过构建一个涵盖设计、制造、封装和测试的完整产业集群,来巩固和扩大该市在中国半导体行业的领导地位。

它们经常扮演“过桥”投资者的角色,在早期轮次支持有前景的公司,然后邀请大基金共同投资,形成“国家加地方”的协同效应。

在上海和北京集成电路基金的支持下,这两个城市正成为各自的国家级领导者:上海作为完整的半导体价值链中心,拥有中芯国际、中微公司、沐曦和燧原科技等领军企业。

北京则正在确立其作为研发和设计之都的地位,以寒武纪、摩尔线程和海光信息等公司为代表。

国企风险投资部门

国企风险投资部门介于两者之间。它们追求与商业风险投资公司相似的一些财务目标,但其更深层的价值在于它们提供的战略资源。

初创公司可以获得国企系统内的采购渠道、试点项目和核心客户。它们还受益于信誉和政治支持,这为未来的融资、银行信贷和参与政府项目铺平了道路。

最重要的是,国企风险投资部门为工业专业知识、供应链合作伙伴甚至制造能力打开了大门。与财务投资者不同,它们通常更有耐心,愿意陪伴公司经历多个增长周期。

所有四家“小龙”都吸引了国企风险投资部门和地方基金的投资,这显示了这些投资工具在中国产业崛起中根深蒂固的地位。

国家指导、地方执行、国企支持和企业升级共同构成了一个分层的投资生态系统,它在降低融资风险的同时,引导资本接收方走向真实的应用场景和持续的需求。

国家主导创新的弊端

耐心资本最好是被动的。与政府关系最密切的公司实际上是表现最差的公司之一。

尽管拥有巨大的先发优势,与中国电子科技集团(CETC)、政府和军工合同收入有着深厚的联系,景嘉微却完全无法将其产品线转向 AI 加速器,从 2021 年至今,随着新竞争对手的出现,其 GPU 收入同比完全崩溃,下降了 40-70%。

虽然天数智芯(另一个早期入局者)由一位甲骨文前高管创立,但在 2021 年,他们任命了前工业和信息化部负责人刁石京担任该职位。

尽管该公司在其训练卡加速器产品线上取得了一些成功,但在共享异构计算项目中的订单量比竞争对手小一个数量级(100 张推理卡 vs 1000 张摩尔线程 GPU、2000 张华为昇腾 910B、3000 张沐曦 GPU)。天数智芯似乎在从研发向广泛商业化过渡的过程中速度较慢。

超大规模计算公司的追随者

根据商业部署的速度来看,国内芯片设计商似乎有两种制胜策略:要么你自己就是客户,自己造(华为、平头哥、昆仑芯),要么你与一个现有的超大规模计算公司合作。

即使在异构计算技术不断进步的情况下,没有与主要超大規模计算公司的紧密联盟,单打独斗似乎要困难得多。

壁仞科技天数智芯尽管拥有强大的团队和早期的市场吸引力,但尚未在超大规模计算公司的云服务中看到大规模应用。景嘉微登临科技则完全缺席于任何重大的商业推广。

毫不奇怪,中国的超大规模计算公司——华为、阿里巴巴、百度、腾讯——都有巨大的动力来管理他们的云基础设施成本,原因与西方同行都有内部芯片团队一样。

前三家拥有自己的全资无晶圆厂设计公司,而腾讯则通过多轮融资,与至少两家“小龙”——燧原科技和摩尔线程——建立了密切关系。

与腾讯的这种密切关系为燧原科技带来了显著的回报,与其他独立的无晶圆厂公司相比,其 S60 推理卡的商业应用量是最大的。

即使在腾讯采取的更为“放手”的合作方式中,它仍然利用了燧原科技的专业知识,共同设计了用于腾讯云的自研“紫霄”AI 推理芯片。

3. 领导力

佼佼者:华为、寒武纪、燧原科技、摩尔线程、沐曦。

落后者:壁仞科技(虽然最初很有前景,但在被列入实体清单后遭受重创)。

“硅谷基因 + 本土化创新”是成功公司领导层的常见说法。在高管层拥有在主要硅谷机构(尤其是英伟达和 AMD)任职经历的团队,其芯片性能最佳,尽管华为系出身的团队也很强大。

总的来说,工程师领导工程师似乎是通往胜利的最清晰路径。领导层中的政府或部委背景实际上是阻碍进步的主要因素。

国内芯片领导者的普遍模式似乎是“硅谷基因+本土化创新”。该领域许多顶尖公司的管理者都在硅谷公司拥有深厚的经验,但他们将这些解决方案在本土生态系统中付诸实施。

技而优则管”这个词准确地描述了这份名单上表现最好的公司。它或多或少意味着“提拔最优秀的工程师来领导工程师”,这是中国科技圈里一句常见的说法,用来强调管理工程团队的人应该是工程师,而不是工商管理硕士。

表现最好的三家“小龙”——燧原科技、摩尔线程沐曦——的创始领导层都拥有“硅谷基因”。燧原科技和沐曦的创始人是拥有十多年合作历史的 AMD 资深人士,而摩尔线程实际上是从英伟达中国团队中分离出来的。

这个规则的例外是中国的三大巨头,其领导层是在内部培养和提拔的,以及寒武纪

寒武纪是一个独特的故事,两位创始人兄弟都是理工科神童,通过一个天才少年计划被快速引入中科院赞助的生态系统。他们在数学和计算机架构方面的卓越才华,加上中科院的资源,最终促使他们基于对定制加速器硬件的研究创办了寒武纪。

除此之外,我们注意到,领导团队中过多的政府或部委背景似乎与更好的产品性能(毫不意外)或商业应用无关。这里的例子是天数智芯景嘉微。虽然政府关系在大型智能集群合同中可能看起来有帮助,但采购的基础似乎更偏向于实力。

4. 商业应用

佼佼者:华为、昆仑芯、平头哥、燧原科技、寒武纪、海光信息

荣誉提名:算能科技

迄今为止,最受广泛支持的国内芯片设计商包括所有三家巨头(海思、昆仑芯、平头哥),四小龙中的两家(燧原科技、壁仞科技),两家上市领军者(寒武纪、海光信息),以及最后的天数智芯。

中国的超大规模计算市场由三大巨头主导:华为、腾讯和阿里巴巴。百度 AI 云、金山云和字节跳动(火山引擎)也值得注意。此外,还有国有的中国三大电信公司:中国联通、中国移动和中国电信。

阿里巴巴是云计算市场的领导者,就市场份额而言,并且在支持的加速器编程语言和硬件平台上提供了最丰富的细节。基于英伟达和 AMD 的计算实例几乎得到了所有中国超大规模计算公司的支持——但这并不适用于其国内的芯片设计商。

资讯配图


来源:阿里云。

直到最近,中国电信运营商的服务器采购确实包括了来自英伟达、AMD 和英特尔的解决方案,但工信部已明确指示电信运营商在 2027 年前逐步淘汰外国处理器,这一进程因迫在眉睫的出口管制和推动国内自给自足而加速。

该指示目前仅限于 CPU(打击英特尔和 AMD),但并未排除针对 GPU 的类似指示。

下表突显了国内芯片在高负载商业领域应用的公开确认。巨头、小龙和上市领军者在排名中占据主导地位。这并非包罗万象,因为还有一长串非本次分析主题的“新云”厂商。

资讯配图

在中国移动的一项重大订单中,华为的昇腾系列赢得了超过 70% 的合同,而百度将为该合同中的许多系统集成商供应其昆仑芯处理器系列。

据报道,燧原科技迄今已出货超过 70,000 张 S60 推理卡,主要供应给腾讯的计算集群。除了华为和寒武纪,这实际上是新晋厂商中记录的商业出货量最大的一次。

最后,在其他有多个供应商的云合同中,我们看到了沐曦、摩尔线程昇腾加速卡的部署数量相当,都在数千张级别,此外壁仞科技天数智芯也有少量参与。

部署的详细情况并非总是按供应商或 SKU 公布。我们将在未来版本的“硅前沿”数据集中尝试追踪出货量数据。目前,我们通常可以观察到的是,巨头们凭借其云计算的足迹已经占据了有利位置,燧原科技似乎在“小龙”中处于领先地位,而寒武纪海光信息也正在取得进展。

原文地址:https://www.machineyearning.io/p/chinas-silicon-vanguard


脚注部分已整合翻译至文中相应超链接,此处不再赘述。

一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 芯片
more
一文看懂马斯克最新对谈:擎天柱V3量产渐近、AI5性能飙升40倍、星舰明年实现完全复用、25年内实现火星自给自足
腾讯辟谣OpenAI姚顺雨1亿薪资入职,毕业于清华姚班
千亿美元股权转型进行时!OpenAI与微软签署新协议,或将为IPO铺平道路
【AI】视频理解新标杆,快手多模态推理模型开源:128k上下文+0.1秒级视频定位+跨模态推理
国产AI芯片最新座次排定,万字长文分析16家企业,中国版“Wintel”联盟浮现,自主AI生态闭环初显
iPhone 17 系列已排期至 10 月发货,三大运营商均将支持 iPhone Air eSIM
高德一夜刷榜:十亿用户用脚投票,美食到店榜单乱象被AI横扫
不讲 AI 的 iPhone 17 卖爆了,前苹果员工做的 AI 明星产品又死一个
AI处理器设计,从未如此复杂
Science Advances | AI for Earth:聆听海洋的「脉搏」,新一代AI大模型精准预测十年气候脉动
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号