AIME'25满分炸场!Qwen一波七连发,全家桶大更新

量子位 2025-09-24 14:27
金磊 发自 凹非寺
量子位 | 公众号 QbitAI

它来了,它来了!

新一代旗舰模型Qwen3-Max带着满分成绩,正式地来了——

国产大模型首次在AIME25和HMMT这两个数学评测榜单拿下100分!

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图1

和前不久Qwen3-Max-Preview一致,参数量依旧是超万亿的规模。

但这次正式的发布在版本上有了一个划分:

而且Qwen3-Max在性能上也有了一定的提升(情商智商,双商增强)。

刚才我们提到的数学满分,正是思考版所拿下的成绩。

至于指令版,则是在SWE-Bench评测(大模型用coding解决真实世界问题)中斩获69.6分,位列全球第一梯队。

以及在Tau2 Bench测试(考察Agent工具调用能力)中,超过Claude Opus4和DeepSeek V3.1,拿下74.8分的成绩。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图2

强,确实是有点强。

但有一说一,如果说Qwen3-Max是一把“火”,那么在刚刚的云栖大会上,通义团队还散出了很多的“星”。

视觉:Qwen3-VL重磅开源

从Qwen3-Max散出来的第一个“星”,就是视觉理解模型Qwen3-VL

其实它在今天凌晨的时候已经开源,属于“微鲜”出炉,但确实是大家比较期待的那一个。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图3

具体而言,这次的型号叫做Qwen3-VL-235B-A22B,同样分为指令版推理版

其中,指令版本在多项主流视觉感知评测中,性能达到甚至超过Gemini 2.5 Pro;而推理版本则是在众多多模态推理的评测基准下取得了SOTA的表现。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图4

除此之外,Qwen3-VL-235B-A22B指令版还支持在带图推理,并且在四项基准测试中的成绩均有所提升。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图5

网友在看到成绩之后,甚至直呼:

Qwen3-VL真是个怪物(太强了)。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图6

实际测试效果现在也已经放出来了。

例如把一张手绘的网页“喂”给Qwen3-VL,它就能唰唰唰地给出HTML和CSS:

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图7

再如给它下面这张图:

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图8

并让Qwen3-VL完成如下任务:

找出属于以下类别的所有实例:“头部、手部、男性、女性、眼镜”。请以JSON格式报告边界框坐标。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图9

更复杂的视频理解,Qwen3-VL也是不在话下:

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图10

更多案例可以通过下面的视频了解一下:

从技术层面来看,Qwen3-VL还是采用了原生动态分辨率设计,但在结构设计上进行了更新

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图11

一是采用MRoPE-Interleave。原始MRoPE按时间 (t)、高度 (h)、宽度 (w) 顺序划分,使时间信息集中在高频维度。Qwen3-VL改为t、h、w交错分布,实现全频覆盖,提升对长视频的理解,同时保持图像理解能力。

二是引入DeepStack,融合ViT多层特征,增强视觉细节捕捉和图文对齐。

团队将视觉tokens的单层注入扩展为LLM多层注入,并优化特征token化:对ViT不同层输出分别token化并输入模型,从而保留从低层到高层的多层次视觉信息。实验表明,该设计显著提升了多种视觉理解任务的表现。

三是将视频时序建模由T-RoPE升级为 文本时间戳对齐机制。通过“时间戳-视频帧”交错输入,实现帧级时间与视觉内容的精细对齐,并原生支持“秒数”和“HMS”两种输出。如此一来,便改进提升了模型在事件定位、动作边界检测、跨模态时间问答等复杂时序任务中的语义感知与时间精度。

全模态:Qwen3-Omni开源

Qwen3-Omni虽然是昨天凌晨已经开源,但在这次云栖大会中也是一同亮相,主打的就是一个全模态

它是首个原生端到端全模态人工智能模型,在一个模型中统一了文本、图像、音频和视频,并且在22个音视频基准测试中达到了SOTA的水平。

目前已经开源的版本包括:

不过基于Qwen3-Omni还衍生出了更多好玩且强悍的细分大模型。

例如今天发布的Qwen3-LiveTranslate就是其中一个——视、听、说全模态同传大模型!

目前,它已经实现了覆盖18种语言的离线和实时两种音视频翻译能力。

从公开测试的成绩来看,Qwen3-LiveTranslate-Flash的准确率已经超过了Gemini-2.5-Flash、GPT-4o-Audio-Preview等:

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图12

即便是在环境嘈杂的地方,Qwen3-LiveTranslate-Flash依旧是能hold得住:

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图13

至于具体效果,来感受一下具体实操的效果:

英文原文:What is mask? This is mask. This is mask. This is mask. This is Musk.

视觉增强前:什么是口罩?这是口罩,这是口罩,这是口罩,这是口罩

视觉增强后:什么是口罩?这是面膜,这是口罩,这是面具,这是马斯克

网友看罢,也是有亿点点震惊在身上的:

我都觉得有点恐怖了。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图14

除了翻译之外,Qwen版Banana——Qwen3-Image-Edit的新版本,也是非常有趣的一个模型。

不仅支持多图融合,提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法,还增强了人物、商品、文字等单图一致性。

而且它还原生支持ControlNet,可通过关键点图改变人物姿势,还可轻松实现换装需求。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图15

编程:Qwen3-Coder升级

新升级的Qwen3-Coder-Plus玩了一套“组合拳”:Qwen Code、Claude Code系统联合训练。

如此打法之下,它的性能效果得到了显著的提升;可以看到相较于之前的版本,在各项基准测试中的分数都有所增长:

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图16

与此同时,与之相关的编程产品Qwen Code也有了升级动作,增加了对多模态模型和sub-agent的支持。

换言之,你现在用Qwen Code的时候,可以输入图像了:

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图17

然后已经有网友开始在实测了,Qwen3-Coder-Plus打造的一座3D宝塔效果是这样的:

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图18

Qwen的终点,不只是开源

最后,总结一下这次云栖大会中的亮点。

首先就是从前天至今,阿里通义千问已经陆陆续续发布、开源大大小小近十款模型,已经是让国内外业界人士对阿里云的开源速度叹为观止。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图19

但有一说一,在听完阿里云智能集团董事长兼CEO吴泳铭的演讲之后,我们发现,通义千问要做的事情,远不止于此。

因为吴泳铭表示,实现AGI已然是确定性事件,但这还仅是起点,终极目标是发展出能自我迭代、全面超越人类的超级人工智能(ASI)。

而要实现ASI,则需要以互联网为起点,经历四个阶段:

第一阶段是智能涌现(学习人)、其次是自主行动(辅助人)、接下来是自我迭代(超越人),最后就是超级人工智能(ASI)。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图20

除此之外,吴泳铭还非常有远见地认为:

大模型将是下一代操作系统,自然语言是以后的源代码,AI Cloud是下一代计算机。

未来全世界或只会有5-6个超级云计算平台。

AIME'25满分炸场!Qwen一波七连发,全家桶大更新图21

但需要明确的一点是,AI越强,人类越强。

One More Thing

哦对了,通义千问那个新一代基础模型架构——Qwen3-Next,今天也正式发布了!

它的模型总参数量大约是80B,但实际上,仅仅在激活3B的情况下,它的性能就可以跟Qwen3-235B媲美。

计算效率,可以说是直接Pro Max了~

而且与密集模型Qwen3-32B相比,它的训练成本降低了超90%,长文本推理吞吐量提升超过10倍。

不得不说,未来大模型的训练和推理效率,要变得更加有意思了。

 

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
AI办公本是如何弯道超车的?
越疆人形机器人新品亮相;星迈创新、清宝机器人等完成融资;OpenAI正组建机器人团队;王兴兴称机器人自主干活有望明年上半年实现
ICCV 25 Highlight | 扩散过程「早预警」实现6x加速,AIGC生图的高效后门防御
【报告】趋势预测专题三:欧盟-生成式人工智能(GenAI)展望报告-探索技术、社会和政策的交汇点(附PDF下载)
工业制造开启智能体篇章,AI助力制造业实现“系统级跃迁”
中国公众对生成式AI的看法与使用行为|年度调研
芯报丨微软推出微流控技术,从内部冷却AI芯片
AI嘴替爆火,打工人疯狂@老板
科研进展 | 加州大学洛杉矶分校通过AI为非侵入式脑机接口提供新性能突破
奥特曼发文,OpenAI揭晓“星际之门”野望,扩建五座AI数据中心,需要十余座核电站供能
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号