最近爆火的智能体将生成式AI的应用潜力推至新的高度,从为用户提供AI工具和助手,到多智能体协同创造价值的未来图景正在缓慢展开。
一方面,从语言到图像、音视频、3D各类模型连番刷新性能天花板,模型参数从百亿、千亿向万亿飙升,海量数据、后训练阶段算力投入的综合作用下,AI展现出通过学习人类知识具备泛化智能的“涌现”能力。
这正是智能体诞生的基础,其可以根据需求、用户预设的目标学习人类知识主动决策、规划、执行,甚至实现自主迭代进化。

另一方面DeepSeek通过算法创新降低大模型门槛,开源生态繁荣,为智能体生态繁荣奠定了基础。
这一趋势下,智能体产业化的三大核心要素被清晰推至台前:模型能力决定智能体应用上限、交互速度决定智能体产业化价值、Token成本决定智能体盈利能力。
具体来看,模型能力决定了智能体在具体场景中能解决什么问题、解决到什么程度:首先综合性能可以对标甚至超过闭源模型的开源模型是重要支撑;其次具体到不同场景,每个模型推理、交互、垂直领域知识精准度,决定其能否做到在不同场景可用。
交互速度决定智能体解决问题的速度:不同于此前用户与聊天机器人的交互场景,用户对时延的感知并不敏感,最初GPT-3.5每秒生成速度仅为40个token,彼时已经可以满足用户的阅读体验,但这放到智能体交互层面远远不够。
智能体在金融等对时延要求较高的领域,往往需要其响应速度降至毫秒级别,也就是说,即使模型能力再强,慢响应也会让其失去实用价值。

最后是成本,Token成本决定智能体盈利能力,Token成本直接对应企业的算力消耗成本,成本与定价差额决定智能体毛利率,若Token成本过高,企业也会陷入卖得越多、亏得越多的困境。
然而当下推理模型的思考过程会产生成千上万个Token,智能体在执行复杂任务的中间环节也会产生大量中间文本Token。根据Reddit的数据,当前使用AI辅助编程的开发者平均每月会消耗1千万到5亿Token,相比一年前暴涨50倍,目前企业部署一个智能体平均每月的Token成本大概是1000到5000美元。主流模型的Token成本居高不下,这对于其产业化是不小的瓶颈。
因此,随着大模型参数规模扩大、应用场景复杂化,单纯依靠堆算力、堆成本的粗放模式,已难以平衡智能体的性能、速度与盈利需求,从计算架构层面实现技术突破成为适配三大要素、推动智能体产业化落地的最优路径,这也是浪潮信息在布局的方向。
在这样的产业背景下,浪潮信息作为全球算力基建核心供应商,其此次连破两个国内纪录的硬件产品,就是最好的例证。
首先是浪潮信息元脑SD200超节点AI服务器,在此之上DeepSeek R1的Token生成速度只需8.9毫秒,既实现国内大模型最快Token生成速度,也标志国产AI服务器Token生成速度迈入10毫秒时代。
基于其独创的多主机3D Mesh系统架构,该服务器单机实现了64路本土AI芯片的高速统一互连,单机可承载4万亿参数单体模型,或部署多个万亿参数模型组成的智能体应用。

生成速度极致压缩的背后,SD200还实现了极低通信延迟、整机高可靠性设计、超线性扩展的推理性能。
SD200达到业界最低通信延迟为0.69微秒,其采用极致精简的协议栈,包括物理层、数据链路层、事务层3层,原生支持Load/Store等“内存语义”,基础通信延迟达到百纳秒级,同时Open Fabric原生支持由硬件逻辑实现的链路层重传,采用分布式、预防式的流控机制,从而实现稳定可靠通信。

为了保证整机高可靠适应超节点的大规模商业化应用,其系统硬件层面通过全铜缆电互连、短距紧耦合传输,实现每十亿小时故障率是传统光模块互连方案的1/100,基础软件层通过创新GPU故障信息转储、跨域故障关联定位等关键技术,实现全方位故障可观测、全自动故障隔离、极速故障恢复,业务软件层通过构建业务故障预测模型实现推理响应不中断。

SD200还通过面向超节点创新优化的通信库、PD分离策略、动态负载均衡等技术,将通信耗时控制在10%以内,实现了Deepseek R1 671B最高16.3倍的超线性扩展率。
与此同时,为了进一步提升SD200的易用性,浪潮信息使其兼容CUDA生态,对PyTorch算子全覆盖,一键迁移典型应用等。
其次是元脑HC1000超扩展AI服务器,推理成本首次击破1元/每百万Token。
浪潮信息首席AI战略官刘军透露,全面优化降本和软硬协同增效是HC1000实现百万Token 1元成本高效生产力的关键路径。其核心是浪潮信息创新设计的DirectCom极速架构以及全对称系统拓扑设计。

DirectCom架构每计算模组配置16颗AIPU,实现单卡成本降低60%以上,每卡分摊系统成本降低50%,其采用直达通信设计、计算通信1:1均衡配比,实现全局无阻塞通信;全对称系统拓扑设计支持灵活的PD分离、AF分离方案,最大化资源利用率。
HC1000还支持超大规模无损扩展,实现从1024卡到52万卡的不同规模系统构建,计算侧通过DirectCom和智能保序机制,网络侧支持包喷洒动态路由,深度算网协同实现推理性能相比传统RoCE提升1.75倍。
这两大硬件一方面拉高交互速度保障实时场景响应效率;另一方面推动Token成本持续触底,为智能体规模化落地提供关键硬件支撑。
当我们剖析浪潮信息两大硬件背后的黑科技会发现,其核心底座是底层基础设施在系统架构、互联协议、软件框架等关键点上进行的协同创新。
智能体产业化已成为行业共识,全球知名市研机构IDC的报告预测,中国企业级智能体应用市场规模在2028年保守估计将超过270亿美元。
然而当前以GPU为核心的计算模式与通用计算架构正面临严峻挑战。
我们可以从浪潮信息的布局中,观察到其对计算架构底层创新的诸多思考。
刘军透露,他们追求计算架构创新的原则是跟随应用和算法发展的方向,以应用为导向、以系统为核心,才是进行计算架构创新的有效路径。
具体来看,此次浪潮信息的SD200和HC1000针对的是两个典型场景。
SD200面向对延迟要求敏感的商业场景,HC1000面向的是云计算、互联网、大规模AI服务提供商,这些企业需要为客户的智能体应用提供成本更优的计算基础设施。
今年智能体刚刚起步,面向未来,其产业化落地必然会助推AI算力持续高速增长,仍有三大挑战并存。
首先是系统规模扩展接近工程极限,智能体对多模态交互、实时推理的需求,推动算力集群向更大规模、更高互联效率演进,但硬件与网络的物理限制日益凸显;
其次是算力大规模增长对电力基础设施带来挑战,智能体的高并发交互带来算力功耗的指数级增长,单个智算中心的电力需求已达数吉瓦级别;
最后是算力投入和产出失衡,商业兑现进程缓慢,智能体产业化仍处于高投入、低回报阶段,其面临GPU利用率低、尚未形成成熟盈利模式等困境。
这也进一步印证了,效率导向的重要性。刘军补充说,智能体时代加速发展,从人机交互到机机交互,都意味着思考问题的角度要随之变化。当下应从规模导向转向效率导向,采用算法硬件化的专用计算架构,探索开发大模型芯片,实现软硬件深度优化,是未来的发展方向。
大模型发展日新月异,从唯参数论到应用落地,推理需求增长、智能体出现等,其对底层算力玩家提出的需求也在发生变化。
因此企业在应对AI算力挑战时,不能仅停留在解决当下的性能瓶颈与资源紧张等表层痛点,更需穿透问题表象,深挖制约算力效率提升与规模化应用的核心桎梏,在此基础上,浪潮信息通过前瞻性视角布局技术与架构创新,为未来AI规模化落地筑牢技术根基。
