AIME'25满分炸场！Qwen一波七连发，全家桶大更新

量子位 2025-09-24 14:27

金磊发自凹非寺
量子位 | 公众号 QbitAI

它来了，它来了！

新一代旗舰模型Qwen3-Max带着满分成绩，正式地来了——

国产大模型首次在AIME25和HMMT这两个数学评测榜单拿下100分！

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图1

和前不久Qwen3-Max-Preview一致，参数量依旧是超万亿的规模。

但这次正式的发布在版本上有了一个划分：

指令版（Instruct）
思考版（Thinking）

而且Qwen3-Max在性能上也有了一定的提升（情商智商，双商增强）。

刚才我们提到的数学满分，正是思考版所拿下的成绩。

至于指令版，则是在SWE-Bench评测（大模型用coding解决真实世界问题）中斩获69.6分，位列全球第一梯队。

以及在Tau2 Bench测试（考察Agent工具调用能力）中，超过Claude Opus4和DeepSeek V3.1，拿下74.8分的成绩。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图2

强，确实是有点强。

但有一说一，如果说Qwen3-Max是一把“火”，那么在刚刚的云栖大会上，通义团队还散出了很多的“星”。

视觉：Qwen3-VL重磅开源

从Qwen3-Max散出来的第一个“星”，就是视觉理解模型Qwen3-VL。

其实它在今天凌晨的时候已经开源，属于“微鲜”出炉，但确实是大家比较期待的那一个。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图3

具体而言，这次的型号叫做Qwen3-VL-235B-A22B，同样分为指令版和推理版。

其中，指令版本在多项主流视觉感知评测中，性能达到甚至超过Gemini 2.5 Pro；而推理版本则是在众多多模态推理的评测基准下取得了SOTA的表现。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图4

除此之外，Qwen3-VL-235B-A22B指令版还支持在带图推理，并且在四项基准测试中的成绩均有所提升。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图5

网友在看到成绩之后，甚至直呼：

Qwen3-VL真是个怪物（太强了）。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图6

实际测试效果现在也已经放出来了。

例如把一张手绘的网页“喂”给Qwen3-VL，它就能唰唰唰地给出HTML和CSS：

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图7

再如给它下面这张图：

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图8

并让Qwen3-VL完成如下任务：

找出属于以下类别的所有实例：“头部、手部、男性、女性、眼镜”。请以JSON格式报告边界框坐标。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图9

更复杂的视频理解，Qwen3-VL也是不在话下：

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图10

更多案例可以通过下面的视频了解一下：

从技术层面来看，Qwen3-VL还是采用了原生动态分辨率设计，但在结构设计上进行了更新

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图11

一是采用MRoPE-Interleave。原始MRoPE按时间 (t)、高度 (h)、宽度 (w) 顺序划分，使时间信息集中在高频维度。Qwen3-VL改为t、h、w交错分布，实现全频覆盖，提升对长视频的理解，同时保持图像理解能力。

二是引入DeepStack，融合ViT多层特征，增强视觉细节捕捉和图文对齐。

团队将视觉tokens的单层注入扩展为LLM多层注入，并优化特征token化：对ViT不同层输出分别token化并输入模型，从而保留从低层到高层的多层次视觉信息。实验表明，该设计显著提升了多种视觉理解任务的表现。

三是将视频时序建模由T-RoPE升级为文本时间戳对齐机制。通过“时间戳-视频帧”交错输入，实现帧级时间与视觉内容的精细对齐，并原生支持“秒数”和“HMS”两种输出。如此一来，便改进提升了模型在事件定位、动作边界检测、跨模态时间问答等复杂时序任务中的语义感知与时间精度。

全模态：Qwen3-Omni开源

Qwen3-Omni虽然是昨天凌晨已经开源，但在这次云栖大会中也是一同亮相，主打的就是一个全模态。

它是首个原生端到端全模态人工智能模型，在一个模型中统一了文本、图像、音频和视频，并且在22个音视频基准测试中达到了SOTA的水平。

目前已经开源的版本包括：

Qwen3-Omni-30B-A3B-Instruct
Qwen3-Omni-30B-A3B-Thinking
Qwen3-Omni-30B-A3B-Captioner

不过基于Qwen3-Omni还衍生出了更多好玩且强悍的细分大模型。

例如今天发布的Qwen3-LiveTranslate就是其中一个——视、听、说全模态同传大模型！

目前，它已经实现了覆盖18种语言的离线和实时两种音视频翻译能力。

从公开测试的成绩来看，Qwen3-LiveTranslate-Flash的准确率已经超过了Gemini-2.5-Flash、GPT-4o-Audio-Preview等：

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图12

即便是在环境嘈杂的地方，Qwen3-LiveTranslate-Flash依旧是能hold得住：

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图13

至于具体效果，来感受一下具体实操的效果：

英文原文：What is mask? This is mask. This is mask. This is mask. This is Musk.

视觉增强前：什么是口罩？这是口罩，这是口罩，这是口罩，这是口罩。

视觉增强后：什么是口罩？这是面膜，这是口罩，这是面具，这是马斯克。

网友看罢，也是有亿点点震惊在身上的：

我都觉得有点恐怖了。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图14

除了翻译之外，Qwen版Banana——Qwen3-Image-Edit的新版本，也是非常有趣的一个模型。

不仅支持多图融合，提供“人物+人物”，“人物+商品”，“人物+场景” 等多种玩法，还增强了人物、商品、文字等单图一致性。

而且它还原生支持ControlNet，可通过关键点图改变人物姿势，还可轻松实现换装需求。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图15

编程：Qwen3-Coder升级

新升级的Qwen3-Coder-Plus玩了一套“组合拳”：Qwen Code、Claude Code系统联合训练。

如此打法之下，它的性能效果得到了显著的提升；可以看到相较于之前的版本，在各项基准测试中的分数都有所增长：

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图16

与此同时，与之相关的编程产品Qwen Code也有了升级动作，增加了对多模态模型和sub-agent的支持。

换言之，你现在用Qwen Code的时候，可以输入图像了：

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图17

然后已经有网友开始在实测了，Qwen3-Coder-Plus打造的一座3D宝塔效果是这样的：

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图18

Qwen的终点，不只是开源

最后，总结一下这次云栖大会中的亮点。

首先就是从前天至今，阿里通义千问已经陆陆续续发布、开源大大小小近十款模型，已经是让国内外业界人士对阿里云的开源速度叹为观止。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图19

但有一说一，在听完阿里云智能集团董事长兼CEO吴泳铭的演讲之后，我们发现，通义千问要做的事情，远不止于此。

因为吴泳铭表示，实现AGI已然是确定性事件，但这还仅是起点，终极目标是发展出能自我迭代、全面超越人类的超级人工智能（ASI）。

而要实现ASI，则需要以互联网为起点，经历四个阶段：

第一阶段是智能涌现（学习人）、其次是自主行动（辅助人）、接下来是自我迭代（超越人），最后就是超级人工智能（ASI）。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图20

除此之外，吴泳铭还非常有远见地认为：

大模型将是下一代操作系统，自然语言是以后的源代码，AI Cloud是下一代计算机。

未来全世界或只会有5-6个超级云计算平台。

AIME'25满分炸场！Qwen一波七连发，全家桶大更新图21

但需要明确的一点是，AI越强，人类越强。

One More Thing

哦对了，通义千问那个新一代基础模型架构——Qwen3-Next，今天也正式发布了！

它的模型总参数量大约是80B，但实际上，仅仅在激活3B的情况下，它的性能就可以跟Qwen3-235B媲美。

计算效率，可以说是直接Pro Max了~

而且与密集模型Qwen3-32B相比，它的训练成本降低了超90%，长文本推理吞吐量提升超过10倍。

不得不说，未来大模型的训练和推理效率，要变得更加有意思了。

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

AI

more

AI办公本是如何弯道超车的？

虎嗅app 16小时前

AI办公本是如何弯道超车的？

越疆人形机器人新品亮相；星迈创新、清宝机器人等完成融资；OpenAI正组建机器人团队；王兴兴称机器人自主干活有望明年上半年实现

具身研习社 17小时前

越疆人形机器人新品亮相；星迈创新、清宝机器人等完成融资；OpenAI正组建机器人团队；王兴兴称机器人自主干活有望明年上半年实现

ICCV 25 Highlight | 扩散过程「早预警」实现6x加速，AIGC生图的高效后门防御

机器之心 16小时前

ICCV 25 Highlight | 扩散过程「早预警」实现6x加速，AIGC生图的高效后门防御

【报告】趋势预测专题三：欧盟-生成式人工智能（GenAI）展望报告-探索技术、社会和政策的交汇点（附PDF下载）

人工智能产业链union 13小时前

【报告】趋势预测专题三：欧盟-生成式人工智能（GenAI）展望报告-探索技术、社会和政策的交汇点（附PDF下载）

工业制造开启智能体篇章，AI助力制造业实现“系统级跃迁”

工业机器人 17小时前

工业制造开启智能体篇章，AI助力制造业实现“系统级跃迁”

中国公众对生成式AI的看法与使用行为｜年度调研

腾讯研究院 19小时前

中国公众对生成式AI的看法与使用行为｜年度调研

芯报丨微软推出微流控技术，从内部冷却AI芯片

AI芯天下 13小时前

芯报丨微软推出微流控技术，从内部冷却AI芯片

AI嘴替爆火，打工人疯狂@老板

AI研究所 15小时前

AI嘴替爆火，打工人疯狂@老板

科研进展 | 加州大学洛杉矶分校通过AI为非侵入式脑机接口提供新性能突破

脑机接口产业联盟 13小时前

科研进展 | 加州大学洛杉矶分校通过AI为非侵入式脑机接口提供新性能突破

奥特曼发文，OpenAI揭晓“星际之门”野望，扩建五座AI数据中心，需要十余座核电站供能

头部科技 15小时前

奥特曼发文，OpenAI揭晓“星际之门”野望，扩建五座AI数据中心，需要十余座核电站供能

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号