智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601

机智流 2026-01-26 22:56

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图1

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图2
图片由AI生成

在人工智能的浪潮中,大型语言模型(LLM)已经从单纯的“知识库”进化为能够进行复杂推理的“思考者”。然而,真正的智能不仅在于内部的思辨,更在于与外部世界的有效互动。当模型能够像一个智能代理(Agent)一样,主动调用工具、搜索信息、执行代码并根据环境反馈调整策略时,它才真正具备了解决现实世界复杂问题的能力。

近日,美团LongCat团队正式开源了其最新力作——LongCat-Flash-Thinking-2601,一款拥有5600亿参数的混合专家(MoE)推理模型,它在智能体推理能力上树立了全新的开源标杆。

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图3

论文链接:https://huggingface.co/papers/2601.16725

在线体验:https://longcat.ai/

模型权重:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

开源地址:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

PaperScope解读:https://www.paperscope.ai/hf/2601.16725

研究背景:从“思考”到“行动”的必然跃迁

过去几年,推理模型在数学、编程等封闭领域取得了令人瞩目的成就,甚至在某些方面超越了顶尖人类专家。但这些成就大多局限于模型内部的“思想实验”。一旦面对需要与外部环境交互的真实任务——比如帮你在网上订一张符合所有复杂条件的机票,或者调试一段跨多个服务的生产代码——许多模型便显得力不从心。这是因为,高级的智能体推理能力要求模型不仅能进行深度思考,还要能决定何时、以何种方式与环境互动,并将环境的反馈无缝整合回推理过程中,形成一个“思考-行动-再思考”的闭环。

这一过程充满了挑战:任务轨迹长、环境异构、交互模式长尾分布,且现实世界本身就充满了噪声和不确定性。现有的模型和训练框架,大多为单轮、静态的推理任务而设计,难以应对这种动态、多变的智能体场景。因此,如何构建一个既能深度思考,又能稳健行动的通用智能体,成为了AI领域亟待突破的关键问题。

创新点:为真实世界而生的智能体

LongCat-Flash-Thinking-2601正是为解决上述挑战而生。它并非一个孤立的模型,而是一套从数据、算法到基础设施的端到端协同设计的产物。其核心目标是赋予模型强大的、可泛化的、且对噪声鲁棒的智能体推理能力。

该模型基于5600亿总参数的MoE架构,每次前向传播平均激活270亿参数,在保证强大能力的同时兼顾了推理效率。

它在一系列权威的智能体基准测试中取得了开源模型中的最佳成绩,例如在BrowseComp上达到73.1%,在RWSearch上达到77.7%,在τ²-Bench上更是高达88.2%。这些数字背后,是美团LongCat团队在三大核心方向上的系统性创新。

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图4

创新点一:环境规模化与多域训练,打造通用智能体的“游乐场”

要让一个智能体学会通用技能,就必须让它在足够多样和复杂的环境中进行训练。LongCat团队为此开发了一套自动化的环境构建与任务生成框架。这套框架能够从高层次的领域描述出发,自动生成包含超过60个工具的、具有复杂依赖关系的可执行工具图,并配套生成相应的数据库和验证逻辑。通过这种方式,他们构建了覆盖20多个领域的上万个高质量、可执行、可验证的智能体环境。

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图5图1:可执行领域图的自动化构建流程。 该流程从高层领域规范出发,自动生成领域特定的工具集、数据库模式和工具实现,并最终构建出经过验证的工具依赖图,为环境规模化提供了坚实基础。

这相当于为模型创造了一个巨大的、结构化的“学习游乐场”。为了在这个规模空前的游乐场中高效训练,团队将其异步强化学习框架DORA进行了大规模扩展,支持多达32,000个环境并发执行。这种“环境即课程”的设计理念,使得模型能够在多样化的交互中学习到可迁移的技能,而非死记硬背特定任务的解决方案,从而获得了强大的跨域泛化能力。

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图6图2:LongCat-Flash-Thinking-2601在大规模多环境智能体RL训练中的奖励曲线。 曲线呈现出稳定且持续的增长趋势,表明其算法与基础设施的协同设计有效地保证了超大规模训练的稳定性。

创新点二:面向噪声环境的鲁棒训练,让AI不再“玻璃心”

理想化的训练环境与嘈杂的现实世界之间存在巨大鸿沟。在真实场景中,用户指令可能模糊不清,工具可能返回错误或不完整的结果。如果模型只在“温室”里训练,一旦部署到现实,性能便会断崖式下跌。

LongCat团队深刻认识到这一点,他们对现实世界中的噪声模式进行了系统性分析和分解,并设计了一条自动化的管道,将多类型、多层次的环境噪声(如指令噪声和工具噪声)有控制地注入到训练过程中。更重要的是,他们采用了一种基于课程学习的强化学习策略:从轻微的扰动开始,随着模型鲁棒性的提升,逐步增加噪声的复杂度和强度。这种“渐进式抗压训练”确保了模型在面对不完美环境时依然能保持稳健的性能。

下表清晰地展示了这一策略的有效性。当从标准基准(如VitaBench)切换到专门设计的噪声版本(VitaBench-Noise),加入了噪声训练后的模型在性能下降上远优于没有加入噪声训练的模型。

Dataset
ColdStart
Training w/o Noise
Training w/ Noise
VitaBench (Avg@4)
10.0
28.6
29.3
VitaBench-Noise (Avg@4)
6.3
13.3
20.5
Tau2Bench (Avg@4)
78.8
87.1
88.2
Tau2Bench-Noise (Avg @4)
58.8
62.2
67.1

创新点三:“重思考”模式,解锁推理能力的终极潜力

除了在训练阶段下足功夫,LongCat-Flash-Thinking-2601还在推理阶段引入了一项名为“重思考”(Heavy Thinking)的创新模式。这是一种高效的测试时缩放(Test-Time Scaling)技术,旨在通过联合扩展推理的深度和宽度来攻克最具挑战性的问题。

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图7图3:重思考模式框架图

具体来说,“重思考”模式将推理过程分为两个阶段。首先,模型会并行生成多条候选的推理轨迹,极大地拓宽了探索的广度。随后,一个专门的“总结模型”会对这些并行轨迹进行反思和综合,提炼出最优的解决方案。这种“先发散、再收敛”的策略,模拟了人类在面对难题时的深思熟虑过程。团队还为此引入了额外的强化学习阶段,专门优化总结模型的聚合与提炼能力。实践证明,这种模式在数学、编程和复杂智能体任务上都带来了显著的性能提升,尤其是在计算资源充足的情况下,其优势愈发明显。

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图8图4:并行推理和重思考模式下的上下文管理模式

全面评估:在各项能力上均表现出色

LongCat-Flash-Thinking-2601的卓越之处不仅体现在智能体任务上。在传统的数学推理、通用问答和代码生成等基准测试中,它同样展现了顶尖的竞争力。在AIME-2025等高难度数学竞赛数据集上,它借助“重思考”模式甚至达到了满分。在LiveCodeBench和OIBench等代码基准上,其性能也稳居开源模型前列。这充分证明了该模型在强化智能体能力的同时,并未牺牲其作为通用大模型的基础实力,实现了“博而精”的能力平衡。

智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601图9

结语:开源共享,推动智能体生态发展

LongCat-Flash-Thinking-2601的模型权重、技术报告及相关工具在Hugging Face、GitHub等平台全面开源,链接如下:

论文链接:https://huggingface.co/papers/2601.16725

在线体验:https://longcat.ai/

模型权重:https://huggingface.co/meituan-longcat/LongCat-Flash-Thinking-2601

开源地址:https://github.com/meituan-longcat/LongCat-Flash-Thinking-2601

通过分享这一整套从理论到实践的完整方案,美团LongCat团队希望为未来智能体系统的研究和真实应用铺平道路,激发更多创新,共同推动AI从“能说会道”迈向“能做会干”的新纪元。对于所有关注AI智能体发展的研究者和开发者而言,LongCat-Flash-Thinking-2601无疑是一个值得深入探索和借鉴的宝贵资源。


> 本文由 Intern-S1 等 AI 生成,机智流编辑部校对


-- 完 --


机智流推荐阅读

1. 

2. 

3. 

4. 


关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • lc|LangChain 技术交流群
  • code | AI Coding 交流群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 推理 | AI 推理框架交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
DeepSeek-OCR 2大模型开源,重塑文档AI的认知逻辑
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源
刚刚,马斯克开源 𝕏 平台推荐算法
英伟达发布开源自动驾驶软件,特斯拉股价下跌4%
中国开源AI强势领跑全球 千问模型家族登顶Hugging Face采用率榜首
ICLR 2026重磅开源!重新思考3DGS表示:参数化直接训练难收敛,统一非参数化表示效果更佳!
昔日开源明星被AI逼落斩杀线!收入暴跌80%,75%工程师被裁
商汤开源SenseNova-MARS,多模态自主推理模型突破AI执行边界
ViT一作盛赞:这个中国开源“PS模型”强过Nano Banana
【RVEI】佛山泛家居产业与“RISC-V+开源鸿蒙”生态协同发展闭门研讨会召开
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号