算力即国力！摩尔线程架构/芯片/超节点/万卡集群四连发，助力打造AI国之重器

电子发烧友网报道（文/吴子鹏）在人工智能（AI）时代，算力如同工业革命的电力，成为驱动社会运转的“数字能源”，是AI从技术研发走向大规模应用的核心支撑。因此，在摩尔线程首届MUSA开发者大会（MDC 2025）上，摩尔线程创始人、董事长兼CEO张建中表示：“算力即国力，我们希望能够从芯片到集群，以‘加速计算’的能力，利用全功能GPU打造国之重器。”

摩尔线程创始人、董事长兼CEO张建中

MDC 2025上，摩尔线程集中发布了一系列技术与产品进展，包括新架构“花港”亮相、夸娥万卡智算集群发布、下一代MTT C256超节点架构分享、搭载智能SoC芯片“长江”的AI算力本MTT AIBOOK发布等，算力应用场景覆盖“云边端”。本文重点聚焦云端算力基础设施建设，从“Scale Up”“万卡集群”角度，解读摩尔线程最新产品对国产算力的赋能价值。

从千卡到万卡的跃升，下一步目标直指十万卡

云端算力基础设施的重要应用场景之一，是AI大模型的训练与推理。以训练任务为例，大模型企业通常采用Tensor并行（TP）、Pipeline并行（PP）、Data并行（DP）及专家并行（EP）等方式，拆分千亿、万亿参数规模的大模型，进而完成部署与适配。其中，PP、DP等通信量较大的任务，通常选择Scale Up方式应对，即尽可能部署在单个超节点内；而通信量相对较小的任务，则多采用Scale Out方式。

超节点的本质是极致优化的Scale Up，是算力纵向扩展的最高形态。它通过高速互联技术，将数十至上百颗计算芯片紧密集成为逻辑统一的计算单元，对外表现为一台“超级计算机”。因此，在超节点体系中，算力芯片与互联技术是核心关键。

摩尔线程在MDC 2025上公布的“华山”芯片，基于“花港”架构打造，是专注于AI训推一体与超大规模智能计算的芯片。作为新一代全功能GPU架构，“花港”在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破，核心特性包括：

计算性能显著提升：基于新一代指令集，算力密度提升50%，能效大幅优化；支持从FP4到FP64的全精度端到端计算，新增MTFP6/MTFP4及混合低精度支持。

异步编程与超大规模互联：集成新一代异步编程模型，优化任务调度与并行机制；通过自研MTLink高速互联技术，支持十万卡以上规模智算集群扩展。

图形与AI深度融合：内置AI生成式渲染架构，增强硬件光线追踪加速引擎，完整支持DirectX 12 Ultimate，实现图形渲染与智能计算的高度协同。

全栈自研与安全可信：架构基于全栈自主研发，拥有扎实的专利壁垒（截至2025年6月30日，公司累计授权专利514项，其中发明专利468项），具备全栈自研与自主可控的核心能力；通过四层硬件安全架构，提供从芯片到系统的可验证安全守护。

算力即国力！摩尔线程架构/芯片/超节点/万卡集群四连发，助力打造AI国之重器图2

从行业发展趋势来看，低精度训练推理是未来AI的主要场景，下一代MT Transformer Engine中将进一步利用MTFP8和MTFP4的优势加速Attention部分，将Attention从BF16向FP8甚至FP6演进。为适配更高密度的Tensor Core，“花港”架构在硬件层面进行创新，对Attention中的SIMT部分完成革新性升级：原生支持矩阵rowmax计算，大幅提升混合精度SIMT吞吐量，增强在线量化反量化能力，并提供低精度训练推理中随机舍入等算法的硬件支持。

得益于“花港”架构的领先性能，“华山”芯片集成新一代异步编程与全精度张量计算单元，支持从FP4至FP64的全精度计算，为万卡级智算集群提供稳定高效的算力支撑，是构建下一代“AI工厂”的坚实底座。“华山”芯片具备多项差异化创新：不仅支持MTLink 4.0，还开放兼容多种以太网协议，可适配更多Scale Up交换机；基于新一代Scale Up系统，目前“华山”芯片可支持高达1024个GPU集成的超节点；内置RAS 2.0，可实现ECC和SRAM校验，保障芯片运行准确性；集成ACE 2.0新一代异步通信引擎，负责芯片内部通信调度，提升计算效率。

在Scale Up拓展的具体进展上，摩尔线程在MDC 2025上分享了面向下一代超大规模智算中心的MTT C256超节点架构规划，聚焦高密硬件架构设计，旨在实现极致智算性能。

算力即国力！摩尔线程架构/芯片/超节点/万卡集群四连发，助力打造AI国之重器图3

尽管摩尔线程未在MDC 2025上详细介绍Scale Out相关内容，但从其最新发布的夸娥万卡智算集群中，可看出其在该领域的强劲技术实力。作为Scale Out与Scale Up融合的最终成果，夸娥万卡集群树立了国产智算效率标杆，核心突破包括：浮点运算能力达到10 Exa-Flops，训练算力利用率（MFU）在Dense大模型上达60%、在MOE大模型上达40%，有效训练时间占比超90%，训练线性扩展效率达95%，与国际主流生态高度兼容，且在多项能效指标上具备显著优势。

算力即国力！摩尔线程架构/芯片/超节点/万卡集群四连发，助力打造AI国之重器图4

张建中表示，摩尔线程已具备千卡和万卡集群的部署与运营能力，下一步目标是攻克十万卡集群技术。

MUSA 5.0的战略基石价值：让算力普惠各行各业

强劲的全功能GPU性能，叠加针对性的系统优化，使大模型开发者无论是开展训练还是推理工作，都能获得极致优化的效率：

在训练侧，基于原生FP8能力完整复现顶尖大模型训练流程，多项关键精度指标达到国际主流水平。技术层面实现核心优化：Flash Attention算力利用率超95%，突破FP8累加精度等关键技术瓶颈，充分释放国产GPU在大模型训练中的性能潜力。

在推理侧，摩尔线程联合硅基流动，经系统级工程优化与FP8精度加速，在DeepSeek R1 671B全量模型上实现性能突破：MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s，树立国产推理性能新标杆。

需要说明的是，本文仅解读了摩尔线程全功能GPU在AI计算领域的能力。此外，该公司全功能GPU的核心引擎还涵盖3D图形渲染、物理仿真与科学计算、智能视频编解码，这使得摩尔线程全功能GPU在AI科学计算、工业智能、数字孪生、具身智能、量子计算、6G通信、生物医药等领域拥有广阔市场空间。

算力即国力！摩尔线程架构/芯片/超节点/万卡集群四连发，助力打造AI国之重器图5

能够实现全场景覆盖，核心原因在于摩尔线程不仅拥有性能领先的全功能GPU，其自主研发的MUSA统一架构更是战略基石。

MUSA（Meta-computing Unified System Architecture，元计算统一计算架构）是摩尔线程自主研发的全栈技术体系，覆盖芯片架构、指令集、编程模型、软件运行库及驱动程序框架等核心环节。

MUSA不仅完整定义了从芯片设计到软件生态的统一技术标准，更彰显了公司坚持底层创新、践行长期主义的战略核心，为全功能GPU奠定了坚实技术根基。历经五年深度研发与持续迭代，MUSA实现了软件性能的指数级跨越。全新升级的MUSA 5.0标志着该架构步入成熟新阶段，在全栈统一性、极致效能与生态开放性上取得关键突破，具体包括：

编程生态全面升级：原生支持MUSA C，深度兼容TileLang、Triton等编程语言，为开发者提供灵活高效的全栈开发体验。
计算效能极致优化：核心计算库muDNN实现GEMM/FlashAttention效率超98%，通信效率达97%，编译器性能提升3倍，并集成高性能算子库，显著加速训练与推理全流程。
开源生态持续扩大：计划逐步开源计算加速库、通信库及系统管理框架等核心组件，向开发者社区开放深度优化的底层能力。
前沿特性拓展边界：即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q及计算光刻库muLitho，持续拓展全功能GPU的算力应用边界。

张建中指出，MUSA不仅支持国际通用的CPU系统，同时兼容国产CPU操作系统与开发环境；通过MUSA架构，开发者可采用同一套软件支撑“云边端”不同系列产品。“我们希望MUSA能为我国各领域科技开发者提供更优质的工具与装置，助力他们践行‘十五五’规划，在各自领域贡献力量。我相信中国科技自立自强之路将走得更快、更稳，摩尔线程将持续为美好世界加速。”

算力即国力！摩尔线程架构/芯片/超节点/万卡集群四连发，助力打造AI国之重器图6