多模态不是拼模块,千问新模型证明了最关键的一件事

APPSO 2026-04-01 15:40

林俊旸离职了,但 Qwen 不能停。最近 Qwen3.5-Omni 发布,一个原生全模态大模型,文本、图片、音频、视频的理解与生成,集于一身。

多模态不是拼模块,千问新模型证明了最关键的一件事图1

这不是第一个试图「什么都做」的模型。过去两年,多模态是所有大模型公司都在讲的故事。大多数方案的本质是拼接:语音进来先转文字,文字处理完再转语音,图片走一条独立通道,视频又是另一条。模块之间的信息在翻译中不断损耗。

Qwen3.5-Omni 走了另一条路。它的 Thinker-Talker 架构让所有模态在同一个模型内原生处理——Thinker 负责跨模态的深度推理,Talker 负责实时语音输出,两者共享同一套表征空间。

多模态不是拼模块,千问新模型证明了最关键的一件事图2

结果是:在音频、视频、推理和交互任务上拿下 215 项子任务的 SOTA 成绩,音频理解/推理/识别/翻译/对话全面超越 Gemini-3.1 Pro,同时视觉和文本能力保持同尺寸 Qwen3.5 的水平,没有退化。

比数字更值得看的,是 Qwen 团队在发布页上放出的那批演示视频,不是做题,也不是跑分,而是在展示「和 AI 互动」这件事可以是什么样。

看见你看见的

Qwen3.5-Omni 处理视频素材是多管齐下:自动切片,标注时间戳,识别画面中的人物、动作与空间关系,同时分析音轨中的背景音效和对话内容。模型真正在做的,对时间线上视听信息的同步解析。像下面的视频片段来自《舌尖上的中国》,3.5-Omni 能生成的是结构化的细粒度描述。

多模态不是拼模块,千问新模型证明了最关键的一件事图3

更复杂的场景里,模型处理的是电影片段:多人、多镜头、复杂音效叠加。它能区分不同角色的对话,识别背景音乐的情绪色彩,描述镜头调度和场景切换。

多模态不是拼模块,千问新模型证明了最关键的一件事图4

这些能力可以用在什么场景下呢?一个偏向应用的演示是内容合规审查:给模型一段游戏视频,它自动按时间段输出违规类型、风险等级和具体描述,生成完整的合规预警摘要表。传统方案需要人工逐帧审核,这里模型直接给出结构化结果。

多模态不是拼模块,千问新模型证明了最关键的一件事图5

听懂你说的

如果说上面的演示展示的是模型「看」的能力,下面这组则展示了它「进入场景」的能力。

博客上的一个演示是多轮对话与智能打断:用户举着手机和模型共读一篇论文,随时插话提问。模型基于 Omni 架构原生支持语义打断,区分用户的有意打断和无意义的背景音,不会在你清嗓子的时候停下来。这依赖于模型对 turn-taking 意图的实时识别,而不是简单的音量阈值检测。

多模态不是拼模块,千问新模型证明了最关键的一件事图6

另一个令人印象深刻的演示是歌词字幕生成:一首糅合了多种方言的 rap 被送入模型,输出是带精确时间戳的逐句歌词。并且没有「翻译」的调整,比如在识别粤语歌词时,返送的就是粤语行文,没有自作主张转换成普通话。Qwen3.5-Omni 支持 113 种语言的语音识别和 36 种方言的语音生成,这个覆盖面本身就是一个值得注意的信号。

模型在海量文本、视觉以及超过1亿小时的音视频数据上进行原生多模态预训练。相比上一代 Qwen3-Omni,多语言能力大幅增强:语音识别从此前的版本跃升至 113 种语言,语音生成覆盖 36种方言。

从「看视频」到「写代码」

最出人意料的一组演示来自 Qwen 团队称为「Audio-Visual Vibe Coding」的能力。

第一个案例:用户展示一段音乐游戏的视频,模型观察游戏画面和音效后,直接生成可运行的游戏代码。不是描述游戏逻辑,而是写出代码。

多模态不是拼模块,千问新模型证明了最关键的一件事图7

第二个案例更接近实际产品开发:用户展示一个产品原型的演示视频,模型将视觉设计和交互逻辑转化为前端代码。

多模态不是拼模块,千问新模型证明了最关键的一件事图8

Qwen 团队在技术报告中指出,这种「看视频写代码」的能力并不在模型的训练目标中——它是原生多模态 Scaling 过程中涌现出来的。当视觉、听觉和语言的表征被联合训练到足够深度时,模型自发地学会了在模态之间建立因果关系,而不仅仅是相关性。

支撑这些能力的,是 Qwen3.5-Omni 的 Hybrid-Attention MoE 架构,在同一潜空间内联合训练所有模态的 token。这意味着模型在「思考」时,文字、图像、声音是同一种东西,不存在模态间的翻译损耗。

以往的语音大模型要么思考慢但回答深,要么响应快但内容浅。但今天 Qwen 发布的这些演示视频,比任何 benchmark 数字都更能说明,全模态 AI 在 2026 年能做到什么。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
美国拟立法:禁止联邦政府使用中国产人形机器人
宇树科技王兴兴:六个月内实现机器人任意动作生成,触觉仍是落地瓶颈
杭州智能展现“量子理疗”机器人,涉事企业回应科学性质疑
三星前技术专家创业,为机器人做端侧「通信小脑」,获千万级融资|早起看早期
2026人形机器人半马赛事规则细化 300余台机器人将同场竞技
人形机器人半马冲刺“破1小时”目标,亦庄赛事推动具身智能实战演进
智能庭院机器人Yarbo获近2亿元融资,新品众筹首发6小时破150万美金丨早起看早期
雷军披露小米未来五年超2000亿研发投入 聚焦芯片、AI与具身智能机器人
中国具身智能机器人企业名单(排名不分先后)
宇树科技冲刺科创板,拟募资42亿元领跑人形机器人赛道
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号