
SMARTFLOW AI · 前沿模型
Qwen 开源「语言世界模型」AgentWorld
2026 年 6 月 24 日 · 机智流前沿解读 · 共 7 节
大模型们大多在做同一件事:把话说好。6 月 24 日 Qwen 开源的 AgentWorld 在做一件不太一样的事——它不负责聊天,而负责预测「你这一步操作之后,环境会变成什么样」。这就是「世界模型」,也是 Agent 一直缺的那块拼图。

Qwen 官方发布:开源 AgentWorld-35B-A3B(MoE,35B/3B 激活,256K 上下文)+ AgentWorldBench。「两条路线,一张路线图」——把世界模型当模拟器,或内化进 Agent「先预测再行动」。(@Alibaba_Qwen)
01
一句话:AgentWorld 是什么
AgentWorld 是 Qwen 于 2026 年 6 月 24 日开源的「语言世界模型」(Language World Model)。[1]它和 ChatGPT、Claude 这类对话模型的分工不同:给定当前观察 + Agent 的动作 + 历史交互,它去预测下一步环境会变成什么状态——通过长链思维(long CoT)一步步推演。[1]
两个开源尺寸
· Qwen-AgentWorld-35B-A3B:总参数 35B / 激活 3B(MoE)
· Qwen-AgentWorld-397B-A17B:旗舰,总参数 397B / 激活 17B
「A3B/A17B」即激活参数,混合专家(MoE)架构。[2]
02
「世界模型」到底解决什么问题
先打个比方:人在动手前,会在脑子里预演一下——「我点这个按钮,大概会跳出什么」。这种「对环境的预测」是规划能力的底座。而今天的 Agent 基本没有:它只能真去点一下、看结果、再调整,试错成本极高。
AgentWorld 想补的就是这块。一张图看懂它的两种用法:

论文 Fig.1:上半是「CPT→SFT→RL + 1000 万条环境轨迹」训出覆盖 7 域的世界模型;下半是两种用法——[i] 当解耦的环境模拟器做 Agentic RL(真实/对抗环境都能造),[ii] 内化进 Agent 当统一基座。下方小图即下游任务的提升幅度。
① 解耦的「环境模拟器」
用来做大规模 Agentic RL 训练——训练 Agent 时不必真去点一万次真实软件/网页,而是在世界模型里跑。本质是「便宜地批量造训练环境」,这是它最被看重的一点。
② 统一的 Agent 基座模型
直接用于下游 Agent 任务,提升表现。
03
三个硬指标
🌐 一个模型覆盖 7 大领域
MCP(工具调用)/ Search / Terminal / SWE(软件工程)/ Android / Web / OS,横跨文本与 GUI 环境,单模型统一建模。[2]
🧱 架构(35B-A3B)
40 层混合结构(Gated DeltaNet + MoE + Gated Attention)、256 个专家(8 路由 + 1 共享激活)、256K(262,144)上下文、Apache 2.0 开源。[2]
📏 AgentWorldBench
配套开源的评测基准,由 5 个前沿模型在 9 个既有 benchmark 上的真实交互构建而成,用来衡量「环境模拟」的质量。[1]
04
它是怎么训出来的:CPT → SFT → RL
AgentWorld 的训练分三段,关键词是 「native(原生)世界模型」——环境建模从第一阶段(CPT)起就是训练目标,不是事后给对话模型打的补丁。[1]
· CPT(持续预训练):从状态转移 + 专业语料注入通用的世界建模知识
· SFT(监督微调):激活「下一状态预测」的推理能力
· RL(强化学习):用 rubric + rule 混合奖励,打磨模拟的保真度

论文 Fig.5:三阶段训练流水线——CPT 注入、SFT 激活、RL 打磨。
这条「原生」路线是它和「拿个 LLM 临时当模拟器」最大的区别:模拟环境是它的本职,不是兼职。
05
成绩单:别被「超过 GPT」带偏,真正的赢点在别处
先把话说清楚——「AgentWorld 碾压 GPT-5.4 / Claude」是不准确的。看论文自己的图:在 Qwen 自建的 AgentWorldBench 上,旗舰 397B-A17B 是顶尖梯队,总分约 56.8,仅次于 GPT-5.4(58.2)、略高于 Claude Opus 4.8(56.6),领先 Gemini 3.1 Pro / DeepSeek-V4-Pro / Qwen3.6-Plus。[1]

论文 Fig.7:分领域得分。Qwen-AgentWorld-397B(紫色「Ours」)领跑 Search(37.8)与 SWE(68.5)两项;其余多为前二/前三——Terminal/Android/Web 上 Claude Opus 4.8 更高,MCP/OS 上 GPT-5.4 更高。并非全面第一。
真正值得划重点的,不是这张排行榜,而是另一组数字:把 AgentWorld 当「模拟器」或「统一基座」后,下游 Agent 任务普遍涨 +4~+12 分——MCP Mark +12.3、Claw-Eval +11.8、BFCL v4 +9.0、SWE-Eval Pro +5.2,而且其中不少连工具调用都不需要。[1]这才是世界模型的意义:它不靠刷榜赢,靠「让别的 Agent 变强」赢。
开源的小尺寸 35B-A3B:HF 模型卡给的 AgentWorldBench 总分 56.39,最强 SWE 65.63、最弱 Web 49.55。[2]短板诚实摆出——GUI/网页这类环境的仿真还不稳。
06
怎么用上

Hugging Face 模型卡:Qwen/Qwen-AgentWorld-35B-A3B,Apache 2.0,权重可直接下载、商用。
· 协议:Apache 2.0,可商用
· 生态:兼容 HF Transformers / vLLM / SGLang,建议上下文 ≥ 128K[2]
· 模型:Hugging Face Qwen/Qwen-AgentWorld-35B-A3B
· 代码:GitHub QwenLM/Qwen-AgentWorld
· 论文:arXiv 2606.24597
07
几句冷静的提醒
· 它不是「全面超过 GPT-5.4」:总分仍落后 GPT-5.4,分领域互有胜负,自建 benchmark 也需第三方在中立基准上复现。
· 35B 的 Web 短板说明 GUI 环境仿真还有距离。
· 模拟器本身有误差:world model 当 RL 模拟器很美,但「模拟保真度」自己就是误差来源,sim-to-real 的 gap 不会凭空消失。
· 但把环境建模做成原生训练目标 + 开源 + Apache 2.0 + 下游普涨,已经足够让人认真对待。
编辑判断
过去一年 Agent 的瓶颈,与其说是"不够聪明",不如说是"没有便宜的练习场"——真实环境太贵、太慢、太容易出事。AgentWorld 的思路是把"环境"本身变成一个可预测、可批量生成、可开源的模型。如果这条路走通,最稀缺的"Agent 训练环境"就有了一个可复制的来源。
所以别盯着"有没有超过 GPT"——它真正的成绩是"让接它当基座/模拟器的 Agent 普遍涨了 4~12 分"。更准确的说法是:这是开源世界把"世界模型"从论文概念推进到"能下载、能跑、能商用"的一步,方向比分数更重要。
这种前沿解读每天看不够?
机智流 PRO:每周深度研报 + 飞书/微信群双通道 + AI 工具清单。点下方「阅读原文」加入 →
如果这篇帮你把"世界模型"想明白了一点,欢迎 点赞、在看、转发 三连
想第一时间看到前沿深读,记得给机智流加个 星标 ⭐ 我们下次见 👋
参考来源
[1] Qwen 官方论文:Qwen-AgentWorld — Language World Models for General Agents(定义/7域/AgentWorldBench/CPT-SFT-RL/native/Fig.1·Fig.7 分领域数据/下游 +4~+12) — arXiv:2606.24597 · 2026-06-24
[2] Hugging Face 模型卡:Qwen/Qwen-AgentWorld-35B-A3B(35B-A3B 参数/40层混合架构/256专家/256K/Apache2.0/总分56.39·SWE65.63·Web49.55/vLLM·SGLang) — huggingface.co · 2026-06-24
[3] Qwen 官方公告(@Alibaba_Qwen):开源 35B-A3B + AgentWorldBench,「两条路线一张路线图」 — x.com/Alibaba_Qwen · 2026-06-24
[4] GitHub 开源仓库:QwenLM/Qwen-AgentWorld — github.com · 2026-06-24
© 2026 机智流 · 本文由 AI 采集前沿信息生成 + 多源交叉核验(论文/HF/官方),可能有误,以官方公告与论文为准