混合专家模型驱动前沿 AI 模型,在 NVIDIA Blackwell 系统上运行速度提升 10 倍

NVIDIA英伟达 2025-12-09 18:00
混合专家模型驱动前沿 AI 模型,在 NVIDIA Blackwell 系统上运行速度提升 10 倍图1

 

  • Top 10 智能开源模型均使用混合专家模型架构。

  • Kimi K2 Thinking、DeepSeek-R1、Mistral Large 3 等模型在 NVIDIA Grace Blackwell 机架级扩展系统上运行速度提升 10 倍。

 

如今,几乎任一前沿模型的内部结构都采用混合专家(MoE)模型架构,这种架构旨在模拟人脑的高效运作机制。

 

正如大脑会根据任务激活特定区域,MoE 模型将工作分配给各个专门的专家,并在每个 AI token 的生成过程中只激活与之相关的专家。这样一来,无需成比例增加计算量,就能够实现更快速、更高效的 token 生成。

 

业界已认识到这一优势。在独立 AI 基准测试机构 Artificial Analysis(AA)的榜单上,Top 10 智能开源模型均采用 MoE 架构,包括深度求索的 DeepSeek-R1、月之暗面的 Kimi K2 Thinking、OpenAI 的 gpt-oss-120B 以及 Mistral AI 的 Mistral Large 3。

 

然而,大规模部署 MoE 模型并同时保持高性能向来极具挑战。NVIDIA Grace Blackwell 机架级扩展系统通过软硬件的极致协同设计,将硬件与软件优化相结合,以实现性能和效率最大化,从而使规模化部署 MoE 模型变得切实可行且简便直接。

 

Kimi K2 Thinking MoE 模型在 AA 榜单被评为当前最智能的开源模型。它在 NVIDIA Grace Blackwell 机架级扩展系统上的性能较在 NVIDIA HGX Hopper 上实现了 10 倍的飞跃。基于 DeepSeek-R1 和 Mistral Large 3 MoE 模型展现的卓越性能,这一突破性进展表明 MoE 架构正在成为前沿模型的首选架构,同时也印证了 NVIDIA 全栈推理平台是释放其全部潜力的关键所在。

 

什么是 MoE,为何它已成为前沿模型的标准通过有选择性地仅调用最重要的专家模型,MoE 模型在不增加计算成本的前提下实现了更高的智能水平和适应性。这使其成为高效 AI 系统的基石,这类系统专为“每美元性能”与“每瓦特性能”而优化,能够在单位资金和单位能耗下产出显著更高的智能价值。鉴于这些优势,MoE 迅速成为前沿模型的首选架构也就不足为奇。今年以来,已有超过 60% 的开源 AI 模型采用这一架构。自 2023 年初至今,该架构更推动模型智能水平实现近 70 倍的飞跃式增长,不断推动 AI 突破能力疆界。

 

通过极致协同设计突破 MoE 扩展瓶颈前沿的 MoE 模型体量庞大且结构复杂,无法部署在单块 GPU 上。要运行这些模型,必须将专家分布在多块 GPU 上,这种技术称为“专家并行”。即使在 NVIDIA Hopper 这样的高性能平台上,部署 MoE 模型仍会遇到一些挑战。NVIDIA Grace Blackwell 是一款机架级扩展系统,搭载的 72 块 NVIDIA Blackwell GPU 协同工作,可以如同单一系统般运行。MoE 模型能够利用这种设计将专家并行扩展到远超以往的极限——将专家分布在多达 72 块 GPU 的更大规模集群中,这种架构方法直接解决了 MoE 的扩展瓶颈。

 

性能体现在每瓦特性能上NVIDIA Grace Blackwell 机架级扩展系统能够高效扩展复杂的元学习模型,实现每瓦性能 10 倍的提升。这一性能飞跃不仅是标准上的突破,它使 token 收入可以实现 10 倍增长,彻底改变了 AI 在能效受限、成本敏感型数据中心中的规模化经济模型。

 

大规模驱动智能NVIDIA Grace Blackwell 机架级扩展系统意在为除 MoE 模型之外的工作负载也提供强大的性能。将这一原理扩展至大规模部署——即多个应用程序和智能体为众多用户提供服务的情境——将释放出全新的效率水平。这种方法无需为每个智能体或应用程序重复构建庞大的 AI 模型,而是建立一个共享的专家池供所有系统调用,确保每个请求都能精准路由至对应的专家。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 驱动
more
中国 AI 硬件团队,在 Kickstarter 上找到「第三条路」
内容行业的下一次跃迁:AI驱动的“第四赛道”正在成形
豪掷110亿美元,IBM收购Confluent,加速混合云与AI战略转型
SpaceX估值8000亿美元超OpenAI,IPO就在明年
上市AI芯片公司落地数个千卡集群;国内有万卡经验的公司不超过3个;拆机DDR4半公开售卖;智算中心建设遇到「死结」
独家丨再融3.3亿,Airwallex今天估值80亿美元了
被忽视的“最后一公里”!跑遍广州八大商场,我发现了AI眼镜的真相
存储芯片跃升AI时代战略性关键物资,时创意剖析战略布局与产品突围策略
AI眼镜存储,交锋ePOP、先进封测
比亚迪逐步放弃迪链,折叠屏iPhone或取消实体卡槽,OpenAI否认投广,SpaceX杀入运营商赛道,这就是今天的其他大新闻!
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号