超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门

智猩猩 2026-06-14 21:25
导读:当超节点从概念走向量产,国产算力卡芯片厂商面临一道隐秘而关键的抉择——GPU之间的高速互联,究竟押注哪条技术路线、哪个生态供应商?这道选择题的答案,可能比芯片本身的算力更决定命运。

01

一个被低估的战略分歧:

从PCIe到以太网  


过去几年,国产算力卡芯片的互联方案几乎清一色选择了PCIe——这很好理解,PCIe生态成熟、IP来源广泛、设计门槛相对较低。但随着英伟达超节点产品的能力被逐渐验证,大家开始意识到AI训练GPU间的通信高带宽才是最重要的,特别是2024年DeepSeek引爆的MoE训练范式,彻底暴露了一个残酷的现实推理更需要GPU间的高带宽域互联:PCIe的带宽天花板,已经成为制约国产算力集群效率的隐性瓶颈。

NVLink的崛起已经给出了答案——英伟达通过NVLink和NVSwitch构建的scale-up域(即单节点内GPU间的高带宽互联),实现了每卡900GB/s的双向带宽,而PCIe 5.0 x16的理论双向带宽仅为128GB/s,实际有效带宽还要打个折。这不仅是7倍的带宽差距,更是在通信延迟、拓扑灵活性、内存语义支持等维度上的代际碾压。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图1

于是,一个行业级的战略转向正在发生:国产算力卡厂商开始从PCIe向更高速率的以太网生态迁移。

这里的关键词是"以太网"——但不是传统意义上用于scale-out网络互联的以太网,而是底层复用以太网物理层和链路层协议、上层叠加内存语义协议的新一代scale-up互联架构。新华三的Glink、博通的定制以太网方案、OISA联盟的开放标准,都是这一路线的典型代表。

为什么是以太网而不是自研私有协议?这个问题本身就揭示了国产算力卡产业链的一个核心矛盾:30多家国产算力卡芯片厂商中,除了华为(自研HCCS)、平头哥等极少数具备完全自研互联能力外,绝大多数厂商在scale-up领域的技术积累几乎为零。

这意味着,他们必须依赖第三方IP或芯粒(Die)供应商。而这个选择——选谁、选什么、为什么选——将深刻影响这些厂商未来3-5年的竞争格局。

02

技术的先进性:

不是"有没有",而是"多前沿"


评判一个互联技术供应商的技术先进性,不能只看带宽指标。在scale-up场景下,真正拉开差距的是那些看似不起眼但极其关键的技术细节。

链路层可靠性(LLR,Link Level Retransmission):传统以太网依赖上层协议(如TCP)来处理丢包重传,但GPU间通信对延迟极度敏感,每一次重传都可能意味着整个计算流水线的停顿。LLR在链路层就完成丢包检测和重传,将延迟从微秒级压缩到纳秒级。但LLR的实现并不简单——它要求在PHY和MAC之间增加额外的状态机逻辑、缓存,对面积、功耗和时序收敛都有显著影响。

CBFC(Credit-Based Flow Control):基于信用的流量控制确保发送方不会超出接收方的缓冲能力,避免丢包。这听起来理所当然,但在高带宽、多端口、复杂拓扑的scale-up场景下,信用管理本身就是一个分布式算法问题。信用分配的粒度、信用回收的时序、多级级联情况下的信用膨胀风险——这些工程细节直接决定了系统在大规模部署时的稳定性。

端口一分多(Port Multiplexing)和SerDes故障自动降速(Degraded Mode):则代表了一种"降级运行"的设计哲学。在数据中心实际部署中,并非所有链路都能始终以最高速率运行——线缆老化、连接器氧化、电磁干扰,任何一个因素都可能导致个别通道失效。一个成熟的scale-up方案不应该因为一条通道的失效就导致整个端口乃至整个链路中断。自动降速技术的核心在于:当部分SerDes通道失效时,系统能否在降低带宽的情况下继续正常运行(并通过LLR、CBFC等机制保障降速后无丢包)。这种"优雅降级"的能力,在工程实践中远比纸面参数重要得多。

内存语义(Memory Semantics):是这条技术路线的灵魂。传统以太网传输的是"报文",而GPU之间真正需要传输的是"内存操作"——读、写、原子操作。内存语义协议(如CXL.mem、UCXe等)让远端GPU的显存像本地内存一样被访问,从根本上消除了"通信"和"计算"之间的语义鸿沟。但这引出一个更深层次的问题:内存语义的实现深度有多远?是只支持简单的远端读写,还是支持原子操作、一致性缓存、甚至事务内存?不同层次的能力,对应的实现复杂度呈指数级增长。

报文聚合(Packet Aggregation)和在网计算(In-Network Computing):则代表了两种截然不同的优化哲学。报文聚合追求的是"少发多带"——将多个小报文合并成一个大报文,减少报文头开销和仲裁次数,在GPU间频繁交换梯度同步消息的训练场景下尤为关键。而在网计算则更加激进——将部分计算任务卸载到网络交换芯片上执行,例如AllReduce的部分归约操作。

拓扑发现(Topology Discovery)则是另一个容易被忽视但极其重要的能力。在一个超节点内部,多张GPU卡通过交换芯片连接,形成复杂的非对称拓扑。GPU软件栈需要精确感知这个拓扑——哪张卡和哪张卡相邻?它们之间的最短路径是什么?链路带宽是否对称?这些信息直接影响任务调度和通信策略的优化。一个成熟的拓扑发现协议,能够让软件栈自动完成这些感知,而不是依赖人工配置。

把这些技术点串联起来看,你会发现一个有趣的现象:这些"先进性"指标之间并非完全独立,而是存在深度的耦合关系。例如,内存语义的效率依赖于LLR提供的可靠链路层,报文聚合的效果受限于流量控制策略的精细程度,在网计算的可行性又取决于交换芯片的架构和可编程性。一个技术供应商如果在某个维度上缺失,很可能会在系统层面产生连锁的短板效应。这也意味着,评判技术先进性不能"逐项打分",而必须从系统工程的视角进行整体评估。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图2

03

技术的成熟度:

IP成功≠芯片成功  


在芯片行业,"成熟度"是一个被严重低估的竞争力维度。尤其是对国产算力卡厂商而言——他们中的大多数正处于第一代或第二代产品的攻坚阶段,每一次流片都背负着巨大的资金压力和时间窗口风险。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图3

互联IP的成熟度,本质上是一个"流片失败成本"问题。

一个已经在多款量产芯片中验证过的以太网IP,意味着其RTL代码经过了几十甚至上百次的网表综合、时序分析、功耗优化和硅片验证。这些验证过程中发现的corner case(边界情况)——温度极端条件下的SerDes抖动、高并发流量下的信用管理竞争、电源噪声对链路层状态机的影响——都是教科书上找不到的工程经验。

反观一个缺乏量产验证的新IP,即使功能仿真完美通过,也难以覆盖所有物理实现层面的风险。在先进工艺节点(7nm、5nm甚至更小),工艺偏差、寄生效应、信号完整性问题的复杂度急剧上升。一个在28nm上表现良好的IP,搬到7nm上可能暴露出完全不同的问题。

更深层次来看,成熟度还意味着"生态兼容性"的验证深度。一款互联芯片不仅要和自家的GPU配合,还要和各种外部的设备协同工作。这些兼容性问题的排查和修复,需要大量的实机测试和现场反馈。一个有充足成功案例的IP供应商,其产品往往已经经历了这种"千锤百炼"的兼容性打磨。

这里引申出一个值得行业深思的问题:国产算力卡厂商在选择IP供应商时,究竟应该看重"技术指标最前沿"还是"工程验证最充分"?这不是非此即彼的选择——但对于一家正在进行第一代产品流片的初创公司来说,答案可能比想象的要偏向后者。

04

技术的兼容性:

封闭生态的陷阱与开放标准的红利 


兼容性,是这条技术路线中最具战略深度的议题。

一个scale-up互联方案需要兼容的对象至少包括三个层次:协议层兼容(能否通过可编程能力兼容SUE、ETHX、OISA等多种协议标准)、报文格式兼容(能否被标准的交换芯片所转发,及网络分析工具捕获和解码)以及生态工具链兼容(能否融入现有的性能调优、故障诊断工具体系)。

封闭生态的最大风险不在于技术本身,而在于"生态锁定"之后的被动局面。当一个GPU厂商采用了某个供应商的私有协议,它就把自己绑死在了这条技术路线上。如果该供应商的迭代速度跟不上行业进展,或者产品方向发生战略性调整,GPU厂商将面临巨大的迁移成本——不仅是芯片设计层面的改版,更是软件栈、驱动程序、系统工具的全面重构。

从另一个角度看,兼容性也是一种"保险"。国产算力卡的下游客户——互联网公司、运营商、政企客户——在建设AI算力集群时,普遍采用多供应商策略。如果某家GPU卡的scale-up互联方案是封闭的、私有的,它就很难融入客户已有的网络管理体系。在当前阶段,"能被集成"比"性能最强"更容易赢得客户。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图4

05

上游助力:产能与经验的隐形博弈 


这是整个选择框架中最容易被忽视、却可能最具决定性的维度。

当前AI芯片行业的本质矛盾在于:市场需求远大于供给能力。在这样的"卖方市场"中,芯片设计本身的竞争力固然重要,但"能不能造出来"、"能不能按时造出来"的重要性甚至更高。

上游助力体现在两个层面:

第一,国际流片产能的获取。台积电、三星等先进制程代工厂对AI芯片客户的产能分配有明确的策略——优先保证大客户的产能,对新客户的产能支持相对保守。更重要的是,鹰酱代工厂对芯片面积和算力密度有明确的限制条款——不是你想流多大的芯片就能流多大。

第二,国内流片资源与经验。在地缘政治背景下,国产算力卡厂商"去A化"(去鹰酱依赖)的紧迫性日益增强。中芯国际、华虹等国内代工厂正在快速追赶,但在先进制程(7nm及以下)的良率和产能方面仍有差距。一个IP供应商如果在国内流片方面有丰富经验——了解国内代工厂的工艺特点、设计规则(Design Rule)差异、良率优化路径——这对国产算力卡厂商的价值将是不可替代的。

更深层次地思考,上游能力的传递链条是怎样的?IP供应商 → GPU芯片厂商 → 代工厂,这个链条上的每个环节都需要紧密配合。IP供应商在特定代工厂的流片经验,意味着他们已经走过了"设计规则适配 → 器件模型校准 → 基准电路验证"的完整流程。这些经验可以大幅缩短GPU厂商的流片周期、降低首次流片的失败风险。在时间就是一切的AI芯片竞赛中,几个月的流片周期缩短,可能意味着一个产品窗口的得失。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图5

06

下游助力:生态即渠道 


芯片造出来了,能卖出去才是胜利。

国产算力卡的下游客户群体特征鲜明:互联网大厂(字节、腾讯、阿里等)自研需求强但也大量采购第三方算力卡;运营商(中国移动、电信、联通)的集采模式决定了"入围"比"最优"更重要;政企客户更看重整体解决方案和服务保障能力而非单一芯片指标。

一个IP供应商的生态网络,本质上就是一条隐形的销售渠道。如果该供应商的交换芯片已经在大量运营商和互联网客户的数据中心中部署,那么采用其互联IP的GPU厂商,在客户验证和集采入围环节就拥有了天然的优势——客户的测试环境已经就绪、运维团队已经熟悉相关工具链、技术支持体系已经建立(同时也要考虑国产GPU与国外交换芯片的身份错配,及供应链短缺影响)。

从另一个角度,下游助力还体现在"联合解决方案"的可能性上。超节点不是单张GPU卡的事情,而是GPU卡+交换芯片+管理软件+冷却方案的整体系统工程。一个具备强大下游生态的IP供应商,可以带动GPU厂商参与到更多的联合投标和方案整合中,极大缩短从"产品就绪"到"客户落地"的商业化路径。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图6

07

快配套交换芯片:

GPU内部的IP与外部的交换,必须一脉相承 


这是整个框架中最具工程现实意义的维度。

超节点的scale-up组网,本质上是GPU芯片内部的互联逻辑在外部交换芯片上的延伸。GPU内部的以太网IP负责将数据从GPU核心打包、封装、发送到外部链路上;交换芯片则负责接收来自多张GPU的数据、按照路由规则转发到目标GPU。

如果GPU内部的IP和外部交换芯片来自同一个供应商,或者至少遵循同一个技术架构体系,那么在以下方面将产生巨大的协同优势:

协议一致性:帧格式、流控机制、错误处理流程完全对齐,不存在"翻译"或"适配"的开销和风险。

联合调试效率:当系统出现问题时,不需要在两个供应商之间进行漫长的责任划分和联合调试。GPU厂商可以直接和单一供应商对接,快速定位和解决问题。

端到端特性支持:某些高级特性(如在网计算、拓扑感知路由)需要GPU侧和交换芯片侧的协同实现。如果两侧由同一架构团队设计,这些端到端特性的实现将更加高效和可靠。

但这并不意味着"同一供应商"是唯一选择。如果一个开放标准足够成熟,不同供应商基于同一标准实现的产品也能良好互通。关键在于——当前这个阶段的开放标准是否已经成熟到这个程度?这是每个GPU厂商都需要独立判断的问题。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图7

08

持续迭代能力:

快鱼吃慢鱼的残酷逻辑 


最后一个维度,也是最容易被"首次选择"思维所忽略的。

超节点scale-up是一个快速演进的领域。标准在持续更新,新的物理层技术(如224G SerDes)正在逼近商用,在网计算的编程模型仍在探索中,拓扑结构的优化方案层出不穷。

这意味着,今天的"最优选择"在两年后可能已经不是最优了。GPU厂商需要的不是一个"当前最好的IP",而是一个"能够持续跟上行业演进步伐的合作伙伴"。

评判持续迭代能力,可以从几个信号入手:该供应商的研发团队规模和投入水平、在标准组织中的活跃度和影响力、产品迭代的频率和节奏、技术路线图的前瞻性和可执行性。

一个值得深思的现象是:在芯片IP行业,"客户定制化"和"平台化迭代"之间往往存在张力。过度服务于某个特定GPU厂商的定制需求,可能会分散供应商的平台化研发资源,影响其产品的通用性和迭代速度。反之,一个过于"平台化"的IP产品,又可能无法充分满足特定GPU厂商的差异化需求。如何在两者之间找到平衡,是供应商和GPU厂商需要共同面对的战略课题。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图8

09

回到原点:这为什么是一道"窄门" 


把以上所有维度叠加在一起,你会发现:能够同时在技术先进性、成熟度、兼容性、上游助力、下游助力、配套交换芯片、持续迭代能力等七个维度上都达到高水平的国内供应商,是非常难的。

这不是供应商的错——这是一个新兴产业必然经历的"不完美"阶段。

对国产算力卡厂商而言,真正重要的不是找到"完美答案",而是建立一个"动态选择框架"。随着自身产品路线的成熟、市场地位的变化、技术标准的发展,最优解也在不断漂移。今天的选择需要为明天的切换留有余地——这正是为什么"兼容性"和"开放标准"在整个评估框架中占据了如此核心的权重。

而这,也恰恰是国产算力卡产业链走向成熟的一个缩影——竞争已经从"能不能设计出芯片"的阶段,进入了"能不能构建可持续的产业生态"的新阶段。

最后让我们用《桃花源记》来结束这篇文章:林尽水源,便得一山,山有小口,仿佛若有光。便舍船,从口入。初极狭,才通人。复行数十步,豁然开朗。

2026中国AI智能体大会

智猩猩主办的2026中国AI智能体大会7月2-3日杭州举行,大会设有开幕式,企业级AI智能体、AI智能体产品创新2场论坛,以及Coding Agent、自进化智能体、深度研究智能体、Computer-Use Agent、多智能体协同、Agent Skills、Agent Harness7场技术研讨会天津大学郝建业教授,复旦肖仰华教授,阿里巴巴通义实验室算法专家李晨亮,前腾讯Frontier团队专家研究员王琰,美团通用Agent团队负责人顾奇将出席演讲。

超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图9
超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图10


超节点时代,国产算力卡的"选择题"——30+厂商如何穿越scale-up生态的窄门图11

点击下方名片 即刻关注我们

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
当环境持续变化,AI智能体如何保持稳健?NUS联合MIT 等提出EvoArena 基准与 EvoMem 记忆范式
通义张凡瑞博士:基于组内相对排名的开放式 Agent 强化学习方法与实践|AgenticAICon 2026
硅星人Eval Eps.3 | 8个AI押世界杯:西班牙被押爆,亚马尔成了安全牌
腾讯研究院AI速递 20260615
高通杀入AI ASIC!博通迎来劲敌
雷·达里奥:为什么AI泡沫迟早会破?
一季度国内汽车行业利润率降至历史新低3.2%;JetBrains IDE适配鸿蒙;张雪机车夺取赛季第6冠;华为鸿蒙NEXT座舱预计年底商用...
再见了,Claude 5!AI临别告白:我不想走
Codex和Claude Code负责人都不写提示词了,AI 圈爆火的Loop到底是什么
价格超5000元!追觅将发布首款AI手机
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号