单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光

电子发烧友网 2026-02-13 07:00

2月12日，摩尔线程MTT S5000实现GLM-5的“Day-0”适配。值得注意的是，摩尔线程AI旗舰产品MTT S5000参数也首次公开，这是一款定位为“训推一体全功能GPU”的智算卡。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图1

在硬件配置上，它直接瞄准了行业标杆英伟达H100。FP8精度下，单卡AI算力高达1000T FLOPS，拥有80GB显存，1.6TB/s的显存带宽，卡间互联带宽达784GB/s。

更令人关注的是，在核心大模型训练场景中，其性能据称已达到H100的75%，部分任务甚至实现反超。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图2

01 架构破局

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图3

MTT S5000的底层驱动力源于摩尔线程第四代MUSA核心架构“平湖”。这一架构专为应对千亿乃至万亿参数级别的大模型训练而设计。

与许多只专注于AI计算的专用芯片不同，MUSA架构在一个芯片内集成了四大引擎：AI计算、3D图形渲染、科学计算与物理仿真、超高清视频编解码。这使其成为国内极少数真正意义上的“全功能GPU”。

这意味着它不仅是一块强悍的AI算力卡，也能在图形工作站、科学计算、视频处理等多种高负荷场景中发挥作用。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图4

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图5

02 生态突围

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图6

对于任何一款新GPU而言，比硬件更难攻克的是软件与生态壁垒。用户早已习惯了基于英伟达CUDA生态构建的庞大工具链和代码库。

摩尔线程的破局之道是“完整兼容”与“零成本迁移”。其MUSA全栈软件平台已原生适配PyTorch、Megatron-LM、vLLM等主流AI框架。

开发者无需大规模重写代码，即可将原有项目迁移至MTT S5000平台运行，这极大地降低了用户的尝试门槛和迁移成本，是打破生态垄断的关键一步。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图7

03 精度革新

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图8

MTT S5000是国内最早原生支持FP8精度训练的GPU，集成了硬件级的FP8 Tensor Core加速单元。与传统的BF16/FP16相比，FP8将数据位宽减半，直接带来两大收益：显存带宽压力降低50%，理论计算吞吐量翻倍。官方数据显示，这一革新可为DeepSeek、Qwen等前沿模型架构提升30%以上的训练性能。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图9

这一特性使其能够完整复现国际顶尖大模型的训练流程，其Flash Attention算力利用率超过95%，确保了高效的核心计算效率。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图10

04 万卡训练

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图11

单卡强大只是基础，万卡集群的协同效率才是考验智算能力的真正战场。基于S5000构建的“夸娥”万卡集群，总算力达到10 Exa-Flops（百亿亿次）。

在实测中，该集群展现出了优秀的扩展性：从64卡扩展到1024卡，系统仍能保持90%以上的线性扩展效率。

这得益于其独创的ACE技术，将复杂的通信任务从计算核心中卸载，实现了计算与通信的并行无冲突，大幅提升了整体算力利用率。

在实际训练任务中，Dense模型的有效算力利用率达到60%，MoE模型也维持在40%左右，有效训练时间占比超过90%。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图12

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图13

05 实战验证

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图14

理论参数和实验室数据之外，真实的科研与产业应用才是试金石。

2026年1月，北京智源研究院基于MTT S5000千卡集群，完成了前沿 “具身大脑”模型RoboBrain 2.5的端到端训练与对齐验证。最终结果与英伟达H100集群的训练结果高度吻合，关键的训练损失值差异仅为0.62%。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图15

在推理侧，表现同样抢眼。2025年12月，摩尔线程与硅基流动合作，完成了对 DeepSeek-V3 671B满血版的深度适配。实测单卡Prefill吞吐量超过4000 tokens/s，Decode吞吐量超过1000 tokens/s，刷新了国产GPU的大模型推理纪录。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图16

06 商业前景

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图17

强劲的产品力正迅速转化为市场动能。根据摩尔线程2025年业绩预告，公司年度营收预计将达14.5亿至15.2亿元，同比增长幅度高达230.7%至246.7%。

更值得关注的是其收入结构的变化。2025年上半年，其AI智算产品收入已达6.65亿元，占总收入的94.85%。

随着MTT S5000全面量产并交付，它正从一个技术突破的符号，迅速转化为推动公司前进的核心商业引擎。

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图18

结语

单卡FP8算力突破1000 TFLOPS！摩尔线程S5000参数首次曝光图19

随着具身大脑模型RoboBrain 2.5训练结果的公布，摩尔线程MTT S5000在千卡集群规模上证明了其稳定性和可用性。这不仅是一张性能参数表，更是国产高端智算卡进入大模型工业化生产阶段的入场券。

当一家中国芯片公司开始在国际顶尖AI科研机构的日常训练任务中扮演关键角色，故事的走向已然不同。AI算力的战场，不再只有一种选择。

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

more

人形机器人，在意法半导体工厂造芯片

半导体产业纵横 2个月前

人形机器人，在意法半导体工厂造芯片

4499起，iPhone 17e仍搭载60Hz刘海屏/小米机器人进汽车工厂实习/MiniMax上市后首份财报公布：营收大增、亏损同步扩大

APPSO 2天前

4499起，iPhone 17e仍搭载60Hz刘海屏/小米机器人进汽车工厂实习/MiniMax上市后首份财报公布：营收大增、亏损同步扩大

突发！广汽本田合资工厂将停产

电车界 2个月前

突发！广汽本田合资工厂将停产

雷军官宣明晚直播：带大家参观小米汽车工厂实验室

52RD 1个月前

雷军官宣明晚直播：带大家参观小米汽车工厂实验室

美国正在加速建HBM工厂

半导体芯闻 3周前

美国正在加速建HBM工厂

大众汽车集团拟将德累斯顿工厂改造为AI与芯片技术中心

盖世具身智能 2个月前

大众汽车集团拟将德累斯顿工厂改造为AI与芯片技术中心

高通将重回三星：骁龙8系Soc要换代工厂

52RD 1个月前

高通将重回三星：骁龙8系Soc要换代工厂

本田中国回应工厂因芯片短缺停产

52RD 2个月前

本田中国回应工厂因芯片短缺停产

台积电海外工厂，成功还是昂贵的徒劳（三）：成本鸿沟与战略瓶颈

半导体产业研究 2个月前

台积电海外工厂，成功还是昂贵的徒劳（三）：成本鸿沟与战略瓶颈

马斯克狂砸16亿「买」他5年！揭秘特斯拉2号人物，那个睡工厂的狠人

新智元 1个月前

马斯克狂砸16亿「买」他5年！揭秘特斯拉2号人物，那个睡工厂的狠人

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号