算力不再唯一，阿里平头哥以“网力”破局AI集群效率瓶颈

【区角快讯】
近两载，人工智能领域的聚光灯始终打在“算力”二字上。无论是大模型的训练迭代，还是今年Agent应用的爆发式增长，乃至云厂商对智算中心的疯狂扩建，行业舆论的焦点几乎全被GPU、芯片及算力规模所占据。似乎只要显卡堆得足够多，AI的发展就能一路狂奔。然而，现实往往比想象更为骨感。许多深耕大模型训练与推理的一线工程师已敏锐察觉到一个棘手难题：硬件成本飙升，GPU性能日益强悍，但模型训练与推理的整体效率却未能实现同步跃升。症结或许并非出在算力本身，而是长期被业界忽视的另一维度——“网力”。

平头哥产品总监李旭慧曾做过一个精妙的比喻：“若将算力视作AI时代的石油，那么网力便是输送石油的管道。算力提供核心动力，而网力则决定了传输效率。”4月28日，在数字中国建设峰会上，平头哥正式发布了首款智能网卡磐脉920。作为国内首个内置PCIe Switch的400G智能网卡，其最大支持400Gbps吞吐带宽，适用于万卡智算集群、通算集群及高性能存储等场景。目前该产品已实现量产，并将率先部署于阿里云数据中心。磐脉920的核心使命，正是解决这一“网力”短板。

当下的大模型训练任务，动辄需要数千甚至上万张GPU协同作业。单张GPU的性能再卓越，也必须与整个集群保持步调一致。问题在于，一旦部分节点出现延迟，其余节点便只能被迫等待。据观察，当前行业内众多万卡级智算集群中，GPU的实际利用率普遍偏低，“能达到60%已属顶尖水平”。过去，行业目光多聚焦于“拥有多少张卡”，但在实际AI训练场景中，系统运行效率并非由最强硬件决定，而是受制于集群中最慢的那个节点。“领先节点的算力持续闲置等待，导致了大规模的算力浪费。”磐脉920的问世，实则指明了一个新方向：当GPU性能已趋饱和，下一步的关键突破口究竟在哪里。

一张网卡，如何盘活整个智算集群？随着AI智能体深入真实业务场景，推理业务的占比正迅速攀升。“在Agent应用爆发的背景下，推理业务的增长速度显著快于训练。”李旭慧指出。大模型训练强调强同步，而推理面对的是大量突发、小包、高频请求，对低时延和稳定性的要求更为苛刻，这也意味着对“网力”提出了更高挑战。概括而言，磐脉920致力于减少系统内部的“拥堵”与“等待”，通过提升网力来释放AI算力的潜能。其背后依托三大关键技术设计。

首先是支持多路径RDMA，打破单一路径的局限。通俗来讲，原本数据只能走一条高速公路，现在变为多条道路同时分流。更关键的是，这些分散的数据最终仍能按顺序准确重组。李旭慧解释称，磐脉920通过支持逐包喷洒、乱序接收和选择性重传，实现了RDMA多路径传输。从实测结果看，这套方案带来的改善直观且显著。官方数据显示，磐脉920支持单QP打满400G带宽，而同类主流产品的带宽仅为其一半左右。同时，多路径能力可将交换机端口缓冲区水线降低90%，有效减少丢包和重传现象。

第二个关键设计，是将“绕路”转化为“直连”。磐脉920的一大亮点在于内置PCIe Switch，这也是国内首款实现此功能的400G智能网卡。在传统服务器架构中，PCIe Switch通常部署在主板上，数据需经过多个节点转发，导致路径长短不一，时延参差不齐。对于需要高度同步的AI训练任务而言，这种“不整齐”会直接拖累效率。李旭慧比喻道，传统架构常出现“四个下行通道挤一个上行通道”的局面，如同四条支路汇入一条主干道，堵塞难以避免。磐脉920将PCIe Switch直接集成进芯片内部，使网卡与CPU、GPU形成更直接的连接关系。少绕路意味着更低时延，路径统一则带来更稳定的同步效率。据平头哥实测，在相同集群规模和任务条件下，部署磐脉920后，大模型训练和推理任务的完成时间可缩短14%。

第三个关键，是赋予网络自主判断的能力。传统网卡更像是一名搬运工，收到数据即进行传输，仅此而已。据悉，磐脉920引入了细粒度网络感知和可编程拥塞控制能力。直白地说，它能主动规避拥堵，让网络从被动传输转变为主动调度。对于日益复杂的AI集群而言，这种能力的重要性将愈发凸显。从这些设计可以看出，磐脉920并非单纯追求参数上的提升，而是务实地让昂贵的算力减少浪费，从而激发最大潜能。

为何是阿里在定义AI基础设施？除了性能本身，磐脉920背后更值得关注的，是平头哥与阿里的整体战略布局。过去几年，许多芯片公司往往专注于单一环节，如GPU、AI加速卡或CPU。但平头哥的思路是全栈布局。目前，平头哥已形成四条产品线：真武系列AI芯片、倚天服务器CPU、镇岳存储主控芯片，以及此次发布的磐脉系列智能网卡。这恰好对应了数据中心的关键环节：算力、存力和网力。

李旭慧在采访中表示：“单一芯片产品无法解决全链路问题，只有打通算力、存力、网力，才能最大化释放AI硬件性能。”这也是平头哥与众多单点芯片公司的区别所在。它不只是打造一块性能更强的芯片，而是试图从整个系统角度审视问题。许多芯片公司先研发产品，再寻找客户和落地场景。但平头哥不同。李旭慧透露，磐脉920立项之时，AI智能体尚未成为行业焦点。但他们从阿里云自身业务中预判，未来AI必将推动数据中心网络能力的升级。“一线业务场景的实际需求，是芯片技术迭代与产品优化的核心驱动力。”先有阿里云的大规模业务场景，再从实际需求中倒推产品定义，这便是磐脉920的商业路径。据透露，与平头哥倚天、真武、镇岳系列芯片一样，它将首先部署在阿里云数据中心。

从这个角度看，磐脉920的发布，本身就是阿里“通云哥”协同能力的一次集中体现。通义负责模型，阿里云负责场景，平头哥负责底层硬件。模型需求推动云基础设施升级，云场景又反向推动芯片演进。这种全栈自研的闭环，在国内科技公司中并不多见。“通云哥”模式虽然前期投入大、周期长，但一旦跑通，护城河极深。AI竞争发展至今，比拼的已非单点能力，而是整套系统能否顺畅运转。随着AI越来越多地从训练走向推理，模型、云与芯片之间形成的持续反馈循环，其整体优势的显现可能才刚刚开始。