美团杀入开源大模型混战:LongCat登场,推理速度直破100 Token/s

机智流 2025-08-31 23:51

资讯配图

本文转载自「AI 寒武纪」

资讯配图


 

美团也推出一款名为 LongCat-Flash 的非推理开源(MIT)大模型,总参数量为 5600亿, MoE架构,激活 186亿至313亿参数(平均约270亿),模型性能看起来还是很不错的,尤其在智能体(Agentic)任务方面表现突出

资讯配图


一大看点是模型采用了 shortcut-connected 架构,扩展了计算与通信的重叠窗口,使推理能够在成本可控的情况下达到每秒100 Token 以上,我刚试了一下速度真的超快

体验地址:

https://longcat.ai

关键特性

可扩展的高效架构设计

LongCat-Flash 的设计与优化遵循两个核心原则:

1.高效的计算利用

2.高效的训练与推理

具体而言:

并非所有 Token 都同等重要,因此研究人员在 MoE 块中引入了 零计算专家机制,根据 Token 的重要性动态分配计算预算,即在总计 5600亿参数中,根据上下文需求激活 186亿至313亿参数

为确保计算负载稳定,采用 PID 控制器调整的专家偏置,保持每个 Token 平均约 270亿激活参数

随着 MoE 模型扩展,通信开销会成为瓶颈。为此,采用了 Shortcut-connected MoE (ScMoE) 设计,扩展计算与通信的重叠窗口。配合定制化的基础设施优化,该设计使得模型能够在 数万加速器规模 上进行大规模训练,并在推理时实现 高吞吐率和低延迟。

有效的模型扩展策略

如何有效地扩展模型规模,是策略设计中的核心挑战。为此美团开发了一套全面的 稳定性与扩展框架,确保大规模模型能够稳健训练:

超参数迁移策略:成功地将超参数迁移应用到如此大规模的模型上,通过小规模代理模型的实验结果,预测最优超参数配置,并且具有理论保证

模型生长机制:基于精炼的半规模检查点进行初始化,相较于常规初始化方法表现更优

稳定性套件:包含基于原理的路由器梯度平衡、隐藏的 z-loss(抑制大规模激活)、以及精调的优化器配置

确定性计算:提升大规模集群训练的可靠性,确保实验结果完全可复现,并能够在训练过程中检测 静默数据损坏(Silent Data Corruption, SDC)

这些措施确保了 LongCat-Flash 在训练过程中保持稳定,没有不可恢复的损失峰值

面向智能体能力的多阶段训练管线

通过精心设计的训练管线,LongCat-Flash 被赋予了先进的 智能体行为能力:

初始阶段:专注于为智能体后训练构建更合适的基础模型,采用 双阶段预训练数据融合策略,重点引入推理密集型领域数据

中期阶段:增强模型的推理与编程能力,同时将上下文长度扩展到 128k,以满足智能体后训练的需求

后期阶段:在先进的基础模型上,进一步进行 多阶段后训练。由于高质量、高难度的智能体任务训练数据稀缺,我们设计了一个 多智能体合成框架,通过以下三条轴线定义任务难度:

1.    信息处理
2.    工具集复杂度
3.    用户交互

借助专门的控制器生成需要 迭代推理与环境交互 的复杂任务

参考:

https://huggingface.co/meituan-longcat/LongCat-Flash-Chat

 


-- 完 --


机智流推荐阅读

1. CUTLASS:通过张量和空间表述处理多维数据的利器

2. 开源多模态大模型新突破,书生·万象3.5发布,通用能力、推理能力与部署效率全面升级

3. 工具调用推理只是花瓶,还是真的让大模型更聪明?腾讯清华团队揭秘工具集成推理的奥秘

4. CVPR2025 | g3D-LF让机器人“看懂”3D空间、“听懂”复杂语言,无需LLM,但导航、问答一气呵成



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
开源万象 智汇星河 |WAVE SUMMIT邀您与全球开发者共筑AI未来
摆脱英伟达依赖?美团发布首个开源大模型
ICCV'25开源 | 无惧遮挡和模糊!MVTracker:跟踪任意3D点!(ETH & CMU & 微软)
新机:FindX9系列续航大提升;荣耀悄悄发布千元新机;首款开源鸿蒙认证空调发布;魅族22公布1元预定权益
阿里开源14B电影级视频模型!实测来了:免费可玩,单次生成时长可达分钟级
打破NVLink垄断,华为这个“大杀器”即将开源
挑战Nvlink,华为推出互联技术,即将开源
几个受欢迎的嵌入式开源项目
腾讯开源视频音效生成模型!从海浪到引擎轰鸣,电影级音效AI一键生成
万物皆可“邪修”?科研党靠这个开源大模型“开挂”:能解化学题、能分析AFM图,有8B轻量版还能二次开发
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号