2月12日,摩尔线程MTT S5000实现GLM-5的“Day-0”适配。值得注意的是,摩尔线程AI旗舰产品MTT S5000参数也首次公开,这是一款定位为“训推一体全功能GPU”的智算卡。 在硬件配置上,它直接瞄准了行业标杆英伟达H100。FP8精度下,单卡AI算力高达1000T FLOPS,拥有80GB显存,1.6TB/s的显存带宽,卡间互联带宽达784GB/s。 更令人关注的是,在核心大模型训练场景中,其性能据称已达到H100的75%,部分任务甚至实现反超。 01 架构破局 MTT S5000的底层驱动力源于摩尔线程第四代MUSA核心架构“平湖”。这一架构专为应对千亿乃至万亿参数级别的大模型训练而设计。 与许多只专注于AI计算的专用芯片不同,MUSA架构在一个芯片内集成了四大引擎:AI计算、3D图形渲染、科学计算与物理仿真、超高清视频编解码。这使其成为国内极少数真正意义上的“全功能GPU”。 这意味着它不仅是一块强悍的AI算力卡,也能在图形工作站、科学计算、视频处理等多种高负荷场景中发挥作用。 02 生态突围 对于任何一款新GPU而言,比硬件更难攻克的是软件与生态壁垒。用户早已习惯了基于英伟达CUDA生态构建的庞大工具链和代码库。 摩尔线程的破局之道是“完整兼容”与“零成本迁移”。其MUSA全栈软件平台已原生适配PyTorch、Megatron-LM、vLLM等主流AI框架。 开发者无需大规模重写代码,即可将原有项目迁移至MTT S5000平台运行,这极大地降低了用户的尝试门槛和迁移成本,是打破生态垄断的关键一步。 03 精度革新 MTT S5000是国内最早原生支持FP8精度训练的GPU,集成了硬件级的FP8 Tensor Core加速单元。与传统的BF16/FP16相比,FP8将数据位宽减半,直接带来两大收益:显存带宽压力降低50%,理论计算吞吐量翻倍。官方数据显示,这一革新可为DeepSeek、Qwen等前沿模型架构提升30%以上的训练性能。 这一特性使其能够完整复现国际顶尖大模型的训练流程,其Flash Attention算力利用率超过95%,确保了高效的核心计算效率。 04 万卡训练 单卡强大只是基础,万卡集群的协同效率才是考验智算能力的真正战场。基于S5000构建的“夸娥”万卡集群,总算力达到10 Exa-Flops(百亿亿次)。 在实测中,该集群展现出了优秀的扩展性:从64卡扩展到1024卡,系统仍能保持90%以上的线性扩展效率。 这得益于其独创的ACE技术,将复杂的通信任务从计算核心中卸载,实现了计算与通信的并行无冲突,大幅提升了整体算力利用率。 在实际训练任务中,Dense模型的有效算力利用率达到60%,MoE模型也维持在40%左右,有效训练时间占比超过90%。 05 实战验证 理论参数和实验室数据之外,真实的科研与产业应用才是试金石。 2026年1月,北京智源研究院基于MTT S5000千卡集群,完成了前沿 “具身大脑”模型RoboBrain 2.5的端到端训练与对齐验证。最终结果与英伟达H100集群的训练结果高度吻合,关键的训练损失值差异仅为0.62%。 在推理侧,表现同样抢眼。2025年12月,摩尔线程与硅基流动合作,完成了对 DeepSeek-V3 671B满血版的深度适配。实测单卡Prefill吞吐量超过4000 tokens/s,Decode吞吐量超过1000 tokens/s,刷新了国产GPU的大模型推理纪录。 06 商业前景 强劲的产品力正迅速转化为市场动能。根据摩尔线程2025年业绩预告,公司年度营收预计将达14.5亿至15.2亿元,同比增长幅度高达230.7%至246.7%。 更值得关注的是其收入结构的变化。2025年上半年,其AI智算产品收入已达6.65亿元,占总收入的94.85%。 随着MTT S5000全面量产并交付,它正从一个技术突破的符号,迅速转化为推动公司前进的核心商业引擎。 结语 随着具身大脑模型RoboBrain 2.5训练结果的公布,摩尔线程MTT S5000在千卡集群规模上证明了其稳定性和可用性。这不仅是一张性能参数表,更是国产高端智算卡进入大模型工业化生产阶段的入场券。 当一家中国芯片公司开始在国际顶尖AI科研机构的日常训练任务中扮演关键角色,故事的走向已然不同。AI算力的战场,不再只有一种选择。