单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光

电子发烧友网 2026-02-13 07:00
2月12日,摩尔线程MTT S5000实现GLM-5的“Day-0”适配。值得注意的是,摩尔线程AI旗舰产品MTT S5000参数首次公开是一款定位为“训推一体全功能GPU”的智算卡
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图1
在硬件配置上,它直接瞄准了行业标杆英伟达H100FP8精度下,单卡AI算力高达1000T FLOPS,拥有80GB显存,1.6TB/s的显存带宽,卡间互联带宽达784GB/s
 
更令人关注的是,在核心大模型训练场景中,其性能据称已达到H100的75%,部分任务甚至实现反超。
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图2

01 架构破局

单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图3
MTT S5000的底层驱动力源于摩尔线程第四代MUSA核心架构“平湖”。这一架构专为应对千亿乃至万亿参数级别的大模型训练而设计。
 
与许多只专注于AI计算的专用芯片不同,MUSA架构在一个芯片内集成了四大引擎:AI计算、3D图形渲染、科学计算与物理仿真、超高清视频编解码。这使其成为国内极少数真正意义上的全功能GPU
 
这意味着它不仅是一块强悍的AI算力卡,也能在图形工作站、科学计算、视频处理等多种高负荷场景中发挥作用。
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图4
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图5

02 生态突围

单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图6
对于任何一款新GPU而言,比硬件更难攻克的是软件与生态壁垒。用户早已习惯了基于英伟达CUDA生态构建的庞大工具链和代码库。
 
摩尔线程的破局之道是“完整兼容”与“零成本迁移”。其MUSA全栈软件平台已原生适配PyTorch、Megatron-LM、vLLM等主流AI框架。
 
开发者无需大规模重写代码,即可将原有项目迁移至MTT S5000平台运行,这极大地降低了用户的尝试门槛和迁移成本,是打破生态垄断的关键一步。
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图7

03 精度革新

单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图8
MTT S5000是国内最早原生支持FP8精度训练的GPU,集成了硬件级的FP8 Tensor Core加速单元。与传统的BF16/FP16相比,FP8将数据位宽减半,直接带来两大收益:显存带宽压力降低50%,理论计算吞吐量翻倍。官方数据显示,这一革新可为DeepSeek、Qwen等前沿模型架构提升30%以上的训练性能。
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图9
 
这一特性使其能够完整复现国际顶尖大模型的训练流程,其Flash Attention算力利用率超过95%,确保了高效的核心计算效率。
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图10

04 万卡训练

单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图11
单卡强大只是基础,万卡集群的协同效率才是考验智算能力的真正战场。基于S5000构建的“夸娥”万卡集群,总算力达到10 Exa-Flops(百亿亿次)。
 
在实测中,该集群展现出了优秀的扩展性:从64卡扩展到1024卡,系统仍能保持90%以上的线性扩展效率。
 
这得益于其独创的ACE技术,将复杂的通信任务从计算核心中卸载,实现了计算与通信的并行无冲突,大幅提升了整体算力利用率。
 
在实际训练任务中,Dense模型的有效算力利用率达到60%,MoE模型也维持在40%左右,有效训练时间占比超过90%。
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图12
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图13

05 实战验证

单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图14
理论参数和实验室数据之外,真实的科研与产业应用才是试金石。
 
2026年1月,北京智源研究院基于MTT S5000千卡集群,完成了前沿 “具身大脑”模型RoboBrain 2.5的端到端训练与对齐验证。最终结果与英伟达H100集群的训练结果高度吻合,关键的训练损失值差异仅为0.62%。
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图15
在推理侧,表现同样抢眼。2025年12月,摩尔线程与硅基流动合作,完成了对 DeepSeek-V3 671B满血版的深度适配。实测单卡Prefill吞吐量超过4000 tokens/s,Decode吞吐量超过1000 tokens/s,刷新了国产GPU的大模型推理纪录。
 
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图16

06 商业前景

单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图17
强劲的产品力正迅速转化为市场动能。根据摩尔线程2025年业绩预告,公司年度营收预计将达14.5亿至15.2亿元,同比增长幅度高达230.7%至246.7%。
 
更值得关注的是其收入结构的变化。2025年上半年,其AI智算产品收入已达6.65亿元,占总收入的94.85%。
 
随着MTT S5000全面量产并交付,它正从一个技术突破的符号,迅速转化为推动公司前进的核心商业引擎。
 
单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图18

结语

单卡FP8算力突破1000 TFLOPS!摩尔线程S5000参数首次曝光图19
随着具身大脑模型RoboBrain 2.5训练结果的公布,摩尔线程MTT S5000在千卡集群规模上证明了其稳定性和可用性。这不仅是一张性能参数表,更是国产高端智算卡进入大模型工业化生产阶段的入场券。
 
当一家中国芯片公司开始在国际顶尖AI科研机构的日常训练任务中扮演关键角色,故事的走向已然不同。AI算力的战场,不再只有一种选择。
 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
人形机器人,在意法半导体工厂造芯片
4499起,iPhone 17e仍搭载60Hz刘海屏/小米机器人进汽车工厂实习/MiniMax上市后首份财报公布:营收大增、亏损同步扩大
突发!广汽本田合资工厂将停产
雷军官宣明晚直播:带大家参观小米汽车工厂实验室
美国正在加速建HBM工厂
大众汽车集团拟将德累斯顿工厂改造为AI与芯片技术中心
高通将重回三星:骁龙8系Soc要换代工厂
本田中国回应工厂因芯片短缺停产
台积电海外工厂,成功还是昂贵的徒劳(三):成本鸿沟与战略瓶颈
马斯克狂砸16亿「买」他5年!揭秘特斯拉2号人物,那个睡工厂的狠人
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号