刚刚！Qwen 开源 AgentWorld：首个「语言世界模型」，让 Agent 先在脑子里把环境跑一遍

SMARTFLOW AI · 前沿模型

Qwen 开源「语言世界模型」AgentWorld

2026 年 6 月 24 日 · 机智流前沿解读 · 共 7 节

大模型们大多在做同一件事：把话说好。6 月 24 日 Qwen 开源的 AgentWorld 在做一件不太一样的事——它不负责聊天，而负责预测「你这一步操作之后，环境会变成什么样」。这就是「世界模型」，也是 Agent 一直缺的那块拼图。

刚刚！Qwen 开源 AgentWorld：首个「语言世界模型」，让 Agent 先在脑子里把环境跑一遍图2

Qwen 官方发布：开源 AgentWorld-35B-A3B（MoE，35B/3B 激活，256K 上下文）+ AgentWorldBench。「两条路线，一张路线图」——把世界模型当模拟器，或内化进 Agent「先预测再行动」。（@Alibaba_Qwen）

一句话：AgentWorld 是什么

AgentWorld 是 Qwen 于 2026 年 6 月 24 日开源的「语言世界模型」（Language World Model）。^[1]它和 ChatGPT、Claude 这类对话模型的分工不同：给定当前观察 + Agent 的动作 + 历史交互，它去预测下一步环境会变成什么状态——通过长链思维（long CoT）一步步推演。^[1]

两个开源尺寸

· Qwen-AgentWorld-35B-A3B：总参数 35B / 激活 3B（MoE）
· Qwen-AgentWorld-397B-A17B：旗舰，总参数 397B / 激活 17B
「A3B/A17B」即激活参数，混合专家（MoE）架构。^[2]

「世界模型」到底解决什么问题

先打个比方：人在动手前，会在脑子里预演一下——「我点这个按钮，大概会跳出什么」。这种「对环境的预测」是规划能力的底座。而今天的 Agent 基本没有：它只能真去点一下、看结果、再调整，试错成本极高。

AgentWorld 想补的就是这块。一张图看懂它的两种用法：

刚刚！Qwen 开源 AgentWorld：首个「语言世界模型」，让 Agent 先在脑子里把环境跑一遍图3

论文 Fig.1：上半是「CPT→SFT→RL + 1000 万条环境轨迹」训出覆盖 7 域的世界模型；下半是两种用法——[i] 当解耦的环境模拟器做 Agentic RL（真实/对抗环境都能造），[ii] 内化进 Agent 当统一基座。下方小图即下游任务的提升幅度。

① 解耦的「环境模拟器」

用来做大规模 Agentic RL 训练——训练 Agent 时不必真去点一万次真实软件/网页，而是在世界模型里跑。本质是「便宜地批量造训练环境」，这是它最被看重的一点。

② 统一的 Agent 基座模型

直接用于下游 Agent 任务，提升表现。

三个硬指标

🌐 一个模型覆盖 7 大领域

MCP（工具调用）/ Search / Terminal / SWE（软件工程）/ Android / Web / OS，横跨文本与 GUI 环境，单模型统一建模。^[2]

🧱 架构（35B-A3B）

40 层混合结构（Gated DeltaNet + MoE + Gated Attention）、256 个专家（8 路由 + 1 共享激活）、256K（262,144）上下文、Apache 2.0 开源。^[2]

📏 AgentWorldBench

配套开源的评测基准，由 5 个前沿模型在 9 个既有 benchmark 上的真实交互构建而成，用来衡量「环境模拟」的质量。^[1]

它是怎么训出来的：CPT → SFT → RL

AgentWorld 的训练分三段，关键词是 「native（原生）世界模型」——环境建模从第一阶段（CPT）起就是训练目标，不是事后给对话模型打的补丁。^[1]

· CPT（持续预训练）：从状态转移 + 专业语料注入通用的世界建模知识
· SFT（监督微调）：激活「下一状态预测」的推理能力
· RL（强化学习）：用 rubric + rule 混合奖励，打磨模拟的保真度

刚刚！Qwen 开源 AgentWorld：首个「语言世界模型」，让 Agent 先在脑子里把环境跑一遍图4

论文 Fig.5：三阶段训练流水线——CPT 注入、SFT 激活、RL 打磨。

这条「原生」路线是它和「拿个 LLM 临时当模拟器」最大的区别：模拟环境是它的本职，不是兼职。

成绩单：别被「超过 GPT」带偏，真正的赢点在别处

先把话说清楚——「AgentWorld 碾压 GPT-5.4 / Claude」是不准确的。看论文自己的图：在 Qwen 自建的 AgentWorldBench 上，旗舰 397B-A17B 是顶尖梯队，总分约 56.8，仅次于 GPT-5.4（58.2）、略高于 Claude Opus 4.8（56.6），领先 Gemini 3.1 Pro / DeepSeek-V4-Pro / Qwen3.6-Plus。^[1]

刚刚！Qwen 开源 AgentWorld：首个「语言世界模型」，让 Agent 先在脑子里把环境跑一遍图5

论文 Fig.7：分领域得分。Qwen-AgentWorld-397B（紫色「Ours」）领跑 Search（37.8）与 SWE（68.5）两项；其余多为前二/前三——Terminal/Android/Web 上 Claude Opus 4.8 更高，MCP/OS 上 GPT-5.4 更高。并非全面第一。

真正值得划重点的，不是这张排行榜，而是另一组数字：把 AgentWorld 当「模拟器」或「统一基座」后，下游 Agent 任务普遍涨 +4~+12 分——MCP Mark +12.3、Claw-Eval +11.8、BFCL v4 +9.0、SWE-Eval Pro +5.2，而且其中不少连工具调用都不需要。^[1]这才是世界模型的意义：它不靠刷榜赢，靠「让别的 Agent 变强」赢。

开源的小尺寸 35B-A3B：HF 模型卡给的 AgentWorldBench 总分 56.39，最强 SWE 65.63、最弱 Web 49.55。^[2]短板诚实摆出——GUI/网页这类环境的仿真还不稳。

怎么用上

刚刚！Qwen 开源 AgentWorld：首个「语言世界模型」，让 Agent 先在脑子里把环境跑一遍图6

Hugging Face 模型卡：Qwen/Qwen-AgentWorld-35B-A3B，Apache 2.0，权重可直接下载、商用。

· 协议：Apache 2.0，可商用
· 生态：兼容 HF Transformers / vLLM / SGLang，建议上下文 ≥ 128K^[2]
· 模型：Hugging Face Qwen/Qwen-AgentWorld-35B-A3B
· 代码：GitHub QwenLM/Qwen-AgentWorld
· 论文：arXiv 2606.24597

几句冷静的提醒

· 它不是「全面超过 GPT-5.4」：总分仍落后 GPT-5.4，分领域互有胜负，自建 benchmark 也需第三方在中立基准上复现。
· 35B 的 Web 短板说明 GUI 环境仿真还有距离。
· 模拟器本身有误差：world model 当 RL 模拟器很美，但「模拟保真度」自己就是误差来源，sim-to-real 的 gap 不会凭空消失。
· 但把环境建模做成原生训练目标 + 开源 + Apache 2.0 + 下游普涨，已经足够让人认真对待。

编辑判断

过去一年 Agent 的瓶颈，与其说是"不够聪明"，不如说是"没有便宜的练习场"——真实环境太贵、太慢、太容易出事。AgentWorld 的思路是把"环境"本身变成一个可预测、可批量生成、可开源的模型。如果这条路走通，最稀缺的"Agent 训练环境"就有了一个可复制的来源。

所以别盯着"有没有超过 GPT"——它真正的成绩是"让接它当基座/模拟器的 Agent 普遍涨了 4~12 分"。更准确的说法是：这是开源世界把"世界模型"从论文概念推进到"能下载、能跑、能商用"的一步，方向比分数更重要。

这种前沿解读每天看不够？

机智流 PRO：每周深度研报 + 飞书/微信群双通道 + AI 工具清单。点下方「阅读原文」加入 →

如果这篇帮你把"世界模型"想明白了一点，欢迎 点赞、在看、转发 三连
想第一时间看到前沿深读，记得给机智流加个 星标 ⭐　我们下次见 👋

参考来源

[1] Qwen 官方论文：Qwen-AgentWorld — Language World Models for General Agents（定义/7域/AgentWorldBench/CPT-SFT-RL/native/Fig.1·Fig.7 分领域数据/下游 +4~+12） — arXiv:2606.24597 · 2026-06-24

[2] Hugging Face 模型卡：Qwen/Qwen-AgentWorld-35B-A3B（35B-A3B 参数/40层混合架构/256专家/256K/Apache2.0/总分56.39·SWE65.63·Web49.55/vLLM·SGLang） — huggingface.co · 2026-06-24

[3] Qwen 官方公告（@Alibaba_Qwen）：开源 35B-A3B + AgentWorldBench，「两条路线一张路线图」 — x.com/Alibaba_Qwen · 2026-06-24

[4] GitHub 开源仓库：QwenLM/Qwen-AgentWorld — github.com · 2026-06-24