刚刚!Qwen 开源 AgentWorld:首个「语言世界模型」,让 Agent 先在脑子里把环境跑一遍

机智流 2026-06-25 08:00
刚刚!Qwen 开源 AgentWorld:首个「语言世界模型」,让 Agent 先在脑子里把环境跑一遍图1

SMARTFLOW AI · 前沿模型

Qwen 开源「语言世界模型」AgentWorld

2026 年 6 月 24 日 · 机智流前沿解读 · 共 7 节


大模型们大多在做同一件事:把话说好。6 月 24 日 Qwen 开源的 AgentWorld 在做一件不太一样的事——它不负责聊天,而负责预测「你这一步操作之后,环境会变成什么样」。这就是「世界模型」,也是 Agent 一直缺的那块拼图。

刚刚!Qwen 开源 AgentWorld:首个「语言世界模型」,让 Agent 先在脑子里把环境跑一遍图2

Qwen 官方发布:开源 AgentWorld-35B-A3B(MoE,35B/3B 激活,256K 上下文)+ AgentWorldBench。「两条路线,一张路线图」——把世界模型当模拟器,或内化进 Agent「先预测再行动」。(@Alibaba_Qwen)

01

一句话:AgentWorld 是什么


AgentWorld 是 Qwen 于 2026 年 6 月 24 日开源的「语言世界模型」(Language World Model)[1]它和 ChatGPT、Claude 这类对话模型的分工不同:给定当前观察 + Agent 的动作 + 历史交互,它去预测下一步环境会变成什么状态——通过长链思维(long CoT)一步步推演。[1]

两个开源尺寸

· Qwen-AgentWorld-35B-A3B:总参数 35B / 激活 3B(MoE)
· Qwen-AgentWorld-397B-A17B:旗舰,总参数 397B / 激活 17B
「A3B/A17B」即激活参数,混合专家(MoE)架构。[2]

02

「世界模型」到底解决什么问题


先打个比方:人在动手前,会在脑子里预演一下——「我点这个按钮,大概会跳出什么」。这种「对环境的预测」是规划能力的底座。而今天的 Agent 基本没有:它只能真去点一下、看结果、再调整,试错成本极高。

AgentWorld 想补的就是这块。一张图看懂它的两种用法:

刚刚!Qwen 开源 AgentWorld:首个「语言世界模型」,让 Agent 先在脑子里把环境跑一遍图3

论文 Fig.1:上半是「CPT→SFT→RL + 1000 万条环境轨迹」训出覆盖 7 域的世界模型;下半是两种用法——[i] 当解耦的环境模拟器做 Agentic RL(真实/对抗环境都能造),[ii] 内化进 Agent 当统一基座。下方小图即下游任务的提升幅度。

① 解耦的「环境模拟器」

用来做大规模 Agentic RL 训练——训练 Agent 时不必真去点一万次真实软件/网页,而是在世界模型里跑。本质是「便宜地批量造训练环境」,这是它最被看重的一点。

② 统一的 Agent 基座模型

直接用于下游 Agent 任务,提升表现。

03

三个硬指标


🌐 一个模型覆盖 7 大领域

MCP(工具调用)/ Search / Terminal / SWE(软件工程)/ Android / Web / OS,横跨文本与 GUI 环境,单模型统一建模。[2]

🧱 架构(35B-A3B)

40 层混合结构(Gated DeltaNet + MoE + Gated Attention)、256 个专家(8 路由 + 1 共享激活)、256K(262,144)上下文Apache 2.0 开源。[2]

📏 AgentWorldBench

配套开源的评测基准,由 5 个前沿模型在 9 个既有 benchmark 上的真实交互构建而成,用来衡量「环境模拟」的质量。[1]

04

它是怎么训出来的:CPT → SFT → RL


AgentWorld 的训练分三段,关键词是 「native(原生)世界模型」——环境建模从第一阶段(CPT)起就是训练目标,不是事后给对话模型打的补丁[1]

· CPT(持续预训练):从状态转移 + 专业语料注入通用的世界建模知识
· SFT(监督微调):激活「下一状态预测」的推理能力
· RL(强化学习):用 rubric + rule 混合奖励,打磨模拟的保真度

刚刚!Qwen 开源 AgentWorld:首个「语言世界模型」,让 Agent 先在脑子里把环境跑一遍图4

论文 Fig.5:三阶段训练流水线——CPT 注入、SFT 激活、RL 打磨。

这条「原生」路线是它和「拿个 LLM 临时当模拟器」最大的区别:模拟环境是它的本职,不是兼职

05

成绩单:别被「超过 GPT」带偏,真正的赢点在别处


先把话说清楚——「AgentWorld 碾压 GPT-5.4 / Claude」是不准确的。看论文自己的图:在 Qwen 自建的 AgentWorldBench 上,旗舰 397B-A17B 是顶尖梯队,总分约 56.8,仅次于 GPT-5.4(58.2)、略高于 Claude Opus 4.8(56.6),领先 Gemini 3.1 Pro / DeepSeek-V4-Pro / Qwen3.6-Plus。[1]

刚刚!Qwen 开源 AgentWorld:首个「语言世界模型」,让 Agent 先在脑子里把环境跑一遍图5

论文 Fig.7:分领域得分。Qwen-AgentWorld-397B(紫色「Ours」)领跑 Search(37.8)与 SWE(68.5)两项;其余多为前二/前三——Terminal/Android/Web 上 Claude Opus 4.8 更高,MCP/OS 上 GPT-5.4 更高。并非全面第一。

真正值得划重点的,不是这张排行榜,而是另一组数字:把 AgentWorld 当「模拟器」或「统一基座」后,下游 Agent 任务普遍涨 +4~+12 分——MCP Mark +12.3、Claw-Eval +11.8、BFCL v4 +9.0、SWE-Eval Pro +5.2,而且其中不少连工具调用都不需要[1]这才是世界模型的意义:它不靠刷榜赢,靠「让别的 Agent 变强」赢

开源的小尺寸 35B-A3B:HF 模型卡给的 AgentWorldBench 总分 56.39,最强 SWE 65.63、最弱 Web 49.55[2]短板诚实摆出——GUI/网页这类环境的仿真还不稳。

06

怎么用上


刚刚!Qwen 开源 AgentWorld:首个「语言世界模型」,让 Agent 先在脑子里把环境跑一遍图6

Hugging Face 模型卡:Qwen/Qwen-AgentWorld-35B-A3B,Apache 2.0,权重可直接下载、商用。

· 协议:Apache 2.0,可商用
· 生态:兼容 HF Transformers / vLLM / SGLang,建议上下文 ≥ 128K[2]
· 模型:Hugging Face Qwen/Qwen-AgentWorld-35B-A3B
· 代码:GitHub QwenLM/Qwen-AgentWorld
· 论文:arXiv 2606.24597

07

几句冷静的提醒


· 它不是「全面超过 GPT-5.4」:总分仍落后 GPT-5.4,分领域互有胜负,自建 benchmark 也需第三方在中立基准上复现。
· 35B 的 Web 短板说明 GUI 环境仿真还有距离。
· 模拟器本身有误差:world model 当 RL 模拟器很美,但「模拟保真度」自己就是误差来源,sim-to-real 的 gap 不会凭空消失。
· 但把环境建模做成原生训练目标 + 开源 + Apache 2.0 + 下游普涨,已经足够让人认真对待。

编辑判断

过去一年 Agent 的瓶颈,与其说是"不够聪明",不如说是"没有便宜的练习场"——真实环境太贵、太慢、太容易出事。AgentWorld 的思路是把"环境"本身变成一个可预测、可批量生成、可开源的模型。如果这条路走通,最稀缺的"Agent 训练环境"就有了一个可复制的来源。

所以别盯着"有没有超过 GPT"——它真正的成绩是"让接它当基座/模拟器的 Agent 普遍涨了 4~12 分"。更准确的说法是:这是开源世界把"世界模型"从论文概念推进到"能下载、能跑、能商用"的一步,方向比分数更重要。

这种前沿解读每天看不够?

机智流 PRO:每周深度研报 + 飞书/微信群双通道 + AI 工具清单。点下方「阅读原文」加入 →

如果这篇帮你把"世界模型"想明白了一点,欢迎 点赞、在看、转发 三连
想第一时间看到前沿深读,记得给机智流加个 星标 ⭐ 我们下次见 👋

参考来源

[1] Qwen 官方论文:Qwen-AgentWorld — Language World Models for General Agents(定义/7域/AgentWorldBench/CPT-SFT-RL/native/Fig.1·Fig.7 分领域数据/下游 +4~+12) — arXiv:2606.24597 · 2026-06-24

[2] Hugging Face 模型卡:Qwen/Qwen-AgentWorld-35B-A3B(35B-A3B 参数/40层混合架构/256专家/256K/Apache2.0/总分56.39·SWE65.63·Web49.55/vLLM·SGLang) — huggingface.co · 2026-06-24

[3] Qwen 官方公告(@Alibaba_Qwen):开源 35B-A3B + AgentWorldBench,「两条路线一张路线图」 — x.com/Alibaba_Qwen · 2026-06-24

[4] GitHub 开源仓库:QwenLM/Qwen-AgentWorld — github.com · 2026-06-24

© 2026 机智流 · 本文由 AI 采集前沿信息生成 + 多源交叉核验(论文/HF/官方),可能有误,以官方公告与论文为准

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
220FPS!最新开源LiAuto-GeoX:一个Transformer统一姿态估计、稠密重建、深度估计、轨迹预测、占用预测!
快手开源GoLongRL:23K样本、9大任务类型,长上下文RL荒的时代结束了
谷歌开源26B文本扩散MoE,劈柴:生成速度像赛马一样快
摩尔线程宣布开源MusaCoder:首个国产GPU全栈训练代码大模型!
谷歌开源DiffusionGemma,自送差评,速度却快4倍
脑机电极 | E-Link 256开源方案:一种基于"软互连"的高密度柔性脑机探针连接器
57场面试杀进OpenAI!华人博士开源「AI面经」,含泪推荐
当AI Agent开始工作,安全该如何跟上?AgentDoG 1.5开源发布
SpaceX 上市首日大涨 19.22%,马斯克成首个万亿美元富豪;世界第一网红订阅总人数突破 5 亿;Kimi 发布并开源 K2.7 | 极客早知道
2026年北京国家会议中心,“无人机开源及应用论坛”即将开幕
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号