算力即国力!摩尔线程架构/芯片/超节点/万卡集群四连发,助力打造AI国之重器

电子发烧友网 2025-12-23 07:00
电子发烧友网报道(文/吴子鹏)在人工智能(AI)时代,算力如同工业革命的电力,成为驱动社会运转的“数字能源”,是AI从技术研发走向大规模应用的核心支撑。因此,在摩尔线程首届MUSA开发者大会(MDC 2025)上,摩尔线程创始人、董事长兼CEO张建中表示:“算力即国力,我们希望能够从芯片到集群,以‘加速计算’的能力,利用全功能GPU打造国之重器。”
 
算力即国力!摩尔线程架构/芯片/超节点/万卡集群四连发,助力打造AI国之重器图1
摩尔线程创始人、董事长兼CEO张建中
MDC 2025上,摩尔线程集中发布了一系列技术与产品进展,包括新架构“花港”亮相、夸娥万卡智算集群发布、下一代MTT C256超节点架构分享、搭载智能SoC芯片“长江”的AI算力本MTT AIBOOK发布等,算力应用场景覆盖云边端。本文重点聚焦云端算力基础设施建设,从“Scale Up”“万卡集群”角度,解读摩尔线程最新产品对国产算力的赋能价值。
 

从千卡到万卡的跃升,下一步目标直指十万卡

云端算力基础设施的重要应用场景之一,是AI大模型的训练与推理。以训练任务为例,大模型企业通常采用Tensor并行(TP)、Pipeline并行(PP)、Data并行(DP)及专家并行(EP)等方式,拆分千亿、万亿参数规模的大模型,进而完成部署与适配。其中,PP、DP等通信量较大的任务,通常选择Scale Up方式应对,即尽可能部署在单个超节点内;而通信量相对较小的任务,则多采用Scale Out方式。
 
超节点的本质是极致优化的Scale Up,是算力纵向扩展的最高形态。它通过高速互联技术,将数十至上百颗计算芯片紧密集成为逻辑统一的计算单元,对外表现为一台“超级计算机”。因此,在超节点体系中,算力芯片与互联技术是核心关键。
 
摩尔线程在MDC 2025上公布的“华山”芯片,基于“花港”架构打造,是专注于AI训推一体与超大规模智能计算的芯片。作为新一代全功能GPU架构,“花港”在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破,核心特性包括:
 
计算性能显著提升:基于新一代指令集,算力密度提升50%,能效大幅优化;支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持。
 
异步编程与超大规模互联:集成新一代异步编程模型,优化任务调度与并行机制;通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展。
 
图形与AI深度融合:内置AI生成式渲染架构,增强硬件光线追踪加速引擎,完整支持DirectX 12 Ultimate,实现图形渲染与智能计算的高度协同。
 
全栈自研与安全可信:架构基于全栈自主研发,拥有扎实的专利壁垒(截至2025年6月30日,公司累计授权专利514项,其中发明专利468项),具备全栈自研与自主可控的核心能力;通过四层硬件安全架构,提供从芯片到系统的可验证安全守护。
 
算力即国力!摩尔线程架构/芯片/超节点/万卡集群四连发,助力打造AI国之重器图2
从行业发展趋势来看低精度训练推理是未来AI的主要场景,下一代MT Transformer Engine中将进一步利用MTFP8和MTFP4的优势加速Attention部分,将Attention从BF16向FP8甚至FP6演进。为适配更高密度的Tensor Core,“花港”架构在硬件层面进行创新,对Attention中的SIMT部分完成革新性升级:原生支持矩阵rowmax计算,大幅提升混合精度SIMT吞吐量,增强在线量化反量化能力,并提供低精度训练推理中随机舍入等算法的硬件支持。
 
得益于“花港”架构的领先性能,“华山”芯片集成新一代异步编程与全精度张量计算单元,支持从FP4至FP64的全精度计算,为万卡级智算集群提供稳定高效的算力支撑,是构建下一代“AI工厂”的坚实底座。“华山”芯片具备多项差异化创新:不仅支持MTLink 4.0,还开放兼容多种以太网协议,可适配更多Scale Up交换机;基于新一代Scale Up系统,目前“华山”芯片可支持高达1024个GPU集成的超节点;内置RAS 2.0,可实现ECC和SRAM校验,保障芯片运行准确性;集成ACE 2.0新一代异步通信引擎,负责芯片内部通信调度,提升计算效率。
 
在Scale Up拓展的具体进展上,摩尔线程在MDC 2025上分享了面向下一代超大规模智算中心的MTT C256超节点架构规划,聚焦高密硬件架构设计,旨在实现极致智算性能。
 
算力即国力!摩尔线程架构/芯片/超节点/万卡集群四连发,助力打造AI国之重器图3
尽管摩尔线程未在MDC 2025上详细介绍Scale Out相关内容,但从其最新发布的夸娥万卡智算集群中,可看出其在该领域的强劲技术实力。作为Scale Out与Scale Up融合的最终成果,夸娥万卡集群树立了国产智算效率标杆,核心突破包括浮点运算能力达到10 Exa-Flops,训练算力利用率(MFU)在Dense大模型上达60%、在MOE大模型上达40%,有效训练时间占比超90%,训练线性扩展效率达95%,与国际主流生态高度兼容,且在多项能效指标上具备显著优势。
 
算力即国力!摩尔线程架构/芯片/超节点/万卡集群四连发,助力打造AI国之重器图4
张建中表示,摩尔线程已具备千卡和万卡集群的部署与运营能力,下一步目标是攻克十万卡集群技术。
 

MUSA 5.0的战略基石价值:让算力普惠各行各业

强劲的全功能GPU性能,叠加针对性的系统优化,使大模型开发者无论是开展训练还是推理工作,都能获得极致优化的效率:
 
在训练侧,基于原生FP8能力完整复现顶尖大模型训练流程,多项关键精度指标达到国际主流水平。技术层面实现核心优化:Flash Attention算力利用率超95%,突破FP8累加精度等关键技术瓶颈,充分释放国产GPU在大模型训练中的性能潜力。
 
在推理侧,摩尔线程联合硅基流动,经系统级工程优化与FP8精度加速,在DeepSeek R1 671B全量模型上实现性能突破:MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,树立国产推理性能新标杆。
 
需要说明的是,本文仅解读了摩尔线程全功能GPU在AI计算领域的能力。此外,该公司全功能GPU的核心引擎还涵盖3D图形渲染、物理仿真与科学计算、智能视频编解码,这使得摩尔线程全功能GPU在AI科学计算、工业智能、数字孪生、具身智能、量子计算、6G通信、生物医药等领域拥有广阔市场空间。
 
算力即国力!摩尔线程架构/芯片/超节点/万卡集群四连发,助力打造AI国之重器图5
能够实现全场景覆盖,核心原因在于摩尔线程不仅拥有性能领先的全功能GPU,其自主研发的MUSA统一架构更是战略基石。
 
MUSA(Meta-computing Unified System Architecture,元计算统一计算架构)是摩尔线程自主研发的全栈技术体系,覆盖芯片架构、指令集、编程模型、软件运行库及驱动程序框架等核心环节。
 
MUSA不仅完整定义了从芯片设计到软件生态的统一技术标准,更彰显了公司坚持底层创新、践行长期主义的战略核心,为全功能GPU奠定了坚实技术根基历经五年深度研发与持续迭代,MUSA实现了软件性能的指数级跨越。全新升级的MUSA 5.0标志着该架构步入成熟新阶段,在全栈统一性、极致效能与生态开放性上取得关键突破,具体包括:
 
 
张建中指出,MUSA不仅支持国际通用的CPU系统,同时兼容国产CPU操作系统与开发环境;通过MUSA架构,开发者可采用同一套软件支撑“云边端”不同系列产品。“我们希望MUSA能为我国各领域科技开发者提供更优质的工具与装置,助力他们践行‘十五五’规划,在各自领域贡献力量。我相信中国科技自立自强之路将走得更快、更稳,摩尔线程将持续为美好世界加速。”
 

算力即国力!摩尔线程架构/芯片/超节点/万卡集群四连发,助力打造AI国之重器图6

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 芯片
more
美国智库放话:限制一块高端芯片,就能锁死中国AI十年,中国所有“自研突破”都是幻觉!
iPhone 17 全系支持 AVS 标准,多款协议芯片加速实时技术落地
全球最疯狂芯片公司,20个月上涨超55000%
这家芯片初创公司,要单挑英伟达
本田中国回应工厂因芯片短缺停产
经典芯片:单电源驱动的RS-232革命
深圳在高端芯片等领域,突破一批“卡脖子”技术
国产光芯片大突破,算力超百倍,绕开EUV
英特尔拟用中国设备产1.4nm芯片 遭美议员安全指控!
钻石芯片,首次展示
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号