就在今天,阿里巴巴的 Qwen AI 团队,发布了其迄今最令人瞩目的模型:Qwen3-Omni。
新一代开源多模态模型
这是一款开源大语言模型,阿里巴巴称其为首个在单一模型中,原生集成了文本、图像、音频和视频的端到端全方位多模态 AI。
需要明确的是,Qwen3-Omni 能够接收并分析用户输入的文本、图像、音频和视频,但目前仅能输出文本和音频,这已是了不起的成就。

回顾 2024 年,OpenAI 的 GPT-4o 开启了全方位模型的趋势,但它仅整合了文本、图像和音频。
谷歌在 2025 年 3 月发布的 Gemini 2.5 Pro 也能分析视频,但它和 GPT-4o 一样是闭源的专有模型,需要付费使用。
相比之下,Qwen3-Omni 遵循对企业友好的 Apache 2.0 许可证,任何人都可以免费下载、修改和部署,甚至可以用于商业目的。
它最接近的对手,可能是谷歌于 2025 年 5 月发布的开源模型 Gemma 3n。该模型同样接受四种模态输入,但只输出文本。
与早期模型将视觉或语音能力附加到文本核心上的做法不同,Qwen3-Omni 从设计之初就融合了所有模态,实现了处理输入与生成输出的实时响应。
三大模型版本,各司其职
阿里云为 Qwen3-Omni-30B-A3B 推出了三个各具特色的版本。
Instruct
模型:功能最全面,结合了“思考者”与“说话者”组件,能处理音视频和文本输入,并生成文本和语音输出。Thinking
模型:专注于推理和长链思维任务,接受同样的多模态输入但只输出文本,更适合需要详细书面答复的场景。Captioner
模型:为音频字幕生成而专门微调的变体,能产出准确且幻觉率低的音频文本描述。
这三个版本让开发者能根据具体需求,灵活选择广泛的多模态交互、深度推理或专业的音频理解能力。
目前,Qwen3-Omni 已在 Hugging Face、Github 上开放,并以更快的 Flash
变体形式通过阿里云 API 提供。
核心架构与设计理念
Qwen3-Omni 的核心是Thinker–Talker
架构。Thinker
负责推理和多模态理解,Talker
则生成自然的语音。两者都依赖混合专家模型来支持高并发和快速推理。
“Thinker”的设计与“Talker”的文本表示解耦,它直接根据音频和视觉特征来生成语音。这使得语音输出能更好地与音视频内容协调,例如在翻译时保持原有的韵律和音色。
这也意味着,外部模块(如检索或安全过滤器)可以在“Talker”生成语音前,对“Thinker”的输出进行干预。
语音生成由多码本自回归方案和轻量级 Code2Wav 卷积网络共同支持,在保证声音细节的同时降低了延迟。
流式性能是其关键。理论上,Qwen3-Omni 处理音频的首包延迟为 234 毫秒,视频为 547 毫秒,即使在多任务并发时,其实时因子也低于 1。
该模型支持 119 种文本语言,19 种语音输入语言和 10 种语音输出语言,覆盖了世界主要语言及粤语等方言。
技术规格与限制
上下文长度:思考模式下 65,536 token;非思考模式下 49,152 tokens 最大输入:16,384 tokens 最大输出:16,384 tokens 最长推理链:32,768 tokens 免费额度:100 万 token(跨所有模态),激活后 90 天有效
API 调用成本
通过阿里云 API,计费单位为每 1000 令牌。两种模式定价相同,但音频输出仅在非思考模式下可用。
输入成本:
文本输入:每 1K 个 token 0.00025 美元(≈每 1M 个 token 0.25 美元) 音频输入:每 1K 个 token 0.00221 美元(≈每 1M 个 token 2.21 美元) 图像/视频输入:每 1K 个 token 0.00046 美元(≈每 1M 个 token 0.46 美元)
输出成本:
纯文本输出: 每 1K 个 token 0.00096 美元(≈每 1M 个 token 0.96 美元),如果输入仅为文本 每 1K 个 token 0.00178 美元(≈每 1M 个 token 1.78 美元),如果输入包含图像或音频 文本 + 音频输出: 每 1K 个 token 0.00876 美元(≈每 1M 个 token 8.76 美元)— 仅音频部分;文本免费
模型的构建之路
Qwen3-Omni 的训练分为大规模预训练和全面的后训练两个阶段。
其音频编码器是自研的音频变换器,使用了 2000 万小时的监督音频数据进行训练,最终形成了一个针对实时和离线任务优化的 6 亿参数编码器。
预训练分为三个阶段:
编码器对齐:首先,在冻结大语言模型的同时,分别训练视觉和音频编码器,防止模型原有感知能力退化。 通用训练:接着,使用约 2 万亿 token 的庞大数据集进行训练,涵盖文本、音频、图像及少量视频数据。 长上下文训练:最后,将最大令牌长度从 8,192 扩展至 32,768,并增加长音视频数据,强化模型处理长序列的能力。
后训练同样细致。“Thinker”经过了监督微调、强弱蒸馏和优化反馈等步骤。“Talker”则通过四阶段训练,结合了数亿多模态语音样本,旨在减少幻觉、提升音质。
亮眼的基准测试表现
Qwen3-Omni 在 36 项基准测试中,有 22 项达到顶尖水平,32 项领先于其他所有开源模型。

文本与推理:在 AIME25 上得分 65.0,远超 GPT-4o 的 26.7;在 WritingBench 上得分 82.6,同样高于 GPT-4o 的 75.5。
语音与音频:在 Wenetspeech 测试中,其词错误率远低于 GPT-4o。在 Librispeech-other 测试中,词错误率降至 2.48,为同类模型最低。
图像与视觉:在 HallusionBench、MMMU_pro 和 MathVision_full 等多个视觉基准上,得分均全面超越 GPT-4o。
视频理解:在 MLVU 基准上,Qwen3-Omni 达到 75.2 分,显著优于 Gemini 2.0 Flash 的 71.0 和 GPT-4o 的 64.6。
这些结果充分证明,Qwen3-Omni 在语音和多模态任务上表现卓越,同时保持了高质量的文本和视觉处理能力。
广阔的应用前景
阿里云展示了 Qwen3-Omni 的多种应用场景,包括多语言转录翻译、音频字幕、光学字符识别、音乐标签和视频理解等。
试想一个场景:技术支持 AI 能够实时分析客户手机摄像头传来的视频,然后一步步语音指导客户如何修理打印机或操作某个应用。
更进一步,它还能实现视频导航和视听对话等互动功能,模型可以结合画面和声音与用户进行实时交流。
开发者还可以通过系统提示词来调整模型的行为方式,从对话风格到扮演的角色,使其能灵活部署于消费级助手、企业级系统和专业分析工具中。
开源许可的深远影响
Qwen3-Omni 采用 Apache 2.0 许可证发布,这是一个非常宽松的框架,允许企业自由使用和修改。
该许可证授予商业使用、修改和再分发的权利,并且不要求衍生作品必须开源。同时,它还包含专利许可,降低了企业将模型集成到自有产品中的法律风险。
这意味着企业可以将 Qwen3-Omni 嵌入到自身的工作流中,而无需支付许可费,也无需担忧合规问题。
Qwen 的未来
Qwen3-Omni 的发布,体现了阿里云致力于将尖端的多模态 AI 技术从研究领域推向企业级实际应用的决心。
其独特的架构、扎实的训练和开放的许可,共同造就了这款兼具技术性能与应用价值的模型。
正如 Qwen 项目负责人 Lin 所言,这可能会给开源全方位多模态模型的格局带来一些改变,希望大家能喜欢它!
通过将强大的实时交互能力与完全的开放性相结合,Qwen3-Omni 标志着多模态 AI 应用进入了一个全新的阶段,无论是企业还是个人开发者,都能无障碍地拥抱这项变革性的技术。
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!