干掉同声传译？阿里又开源一模型，精通18种语言，离线可用

智东西 2025-09-30 20:12

干掉同声传译？阿里又开源一模型，精通18种语言，离线可用图1 干掉同声传译？阿里又开源一模型，精通18种语言，离线可用图2

占据多个中英及多语言语音翻译榜单第一名。

作者 | 王涵

编辑 | 漠影

智东西9月30日消息，刚刚，通义千问多语言实时音视频同传模型Qwen3-LiveTranslate-Flash开源，占据多个中英及多语言语音翻译榜单第一名！

Qwen3-LiveTranslate-Flash实现了覆盖18种语言的离线和实时两种音视频翻译能力，主要有以下5个核心亮点：

1、多语言和方言：支持中文、英文、法语、德语、俄语、意大利语、西班牙语等主要官方语言和普通话、粤语、北京话、吴话、四川话、天津话的方言翻译。

干掉同声传译？阿里又开源一模型，精通18种语言，离线可用图3

2、视觉增强：首次引入视觉上下文增强技术，Qwen3-LiveTranslate-Flash可以通过识别和利用口型、动作、文字、实体等多模态信息，有效应对嘈杂音频环境以及一词多译词场景下的翻译不准问题。

3、3秒延迟：轻量的混合专家架构与动态采样策略，同传实现最低3秒的延迟。

4、无损同传：该模型采用语义单元预测技术缓解跨语言翻译的调序问题，实现与离线翻译几乎无损的翻译质量。

5、音色自然：该模型使用海量语音数据训练，可以根据原始语音内容自适应调节语气和表现力的拟人音色。

01.

超越Gemini-2.5-Flash

同传准确度达94%以上

在公开测试集上，中英及多语言语音翻译榜单中，Qwen3-LiveTranslate-Flash的准确度优于当前主流大模型Gemini-2.5-Flash、GPT-4o-Audio-Preview和Voxtral Small-24B等模型，在除AVG.XX-EN以外的测试中均是第一名。

干掉同声传译？阿里又开源一模型，精通18种语言，离线可用图4

Qwen3-LiveTranslate-Flash在不同领域和复杂声学环境下的测试成绩也优于Gemini-2.5-Flash等主流大模型。

干掉同声传译？阿里又开源一模型，精通18种语言，离线可用图5

该模型研发语义单元预测技术来缓解跨语言调序问题，其实时同传可在保持非实时翻译94%以上准确度的同时，显著降低延迟。

视觉增强技术进一步让Qwen3-LiveTranslate-Flash在嘈杂音频、一词多译、专有名词翻译等场景翻译更精准。在实时场景中，视觉信息弥补了语音上下文的缺失，优势更明显。

干掉同声传译？阿里又开源一模型，精通18种语言，离线可用图6

02.

能分清Mask和Musk

还有多种不同声色

官方给出了丰富的实例，Qwen3-LiveTranslate-Flash在同传翻译、视觉增强辅助等能力上的表现确实能打，着实为专业翻译工作人员捏了一把汗。

例如将阿里巴巴2023年12月份季度业绩电话会议进行中文同传：

输入音频：

输出效果：

凭借视觉增强辅助语音翻译功能，Qwen3-LiveTranslate-Flash能够识别出来mask（口罩）和Musk（马斯克）的区别：

该模型还可以识别低频专有名词，比如人名：

Qwen3-LiveTranslate-Flash还支持多种语言或方言的不同音色，例如：

1、芊悦，voice参数：Cherry

音色效果：

描述：阳光积极、亲切自然小姐姐。

支持的语种/方言：中文、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语

2、不吃鱼，voice参数：Nofish

音色效果：

描述：不会翘舌音的设计师。

支持的语种/方言：中文、英语、法语、德语、俄语、意大利语、西班牙语、葡萄牙语、日语、韩语

3、上海-阿珍，voice参数：Jada

音色效果：

描述：风风火火的沪上阿姐。

支持的语种/方言：中文（吴语）

4、北京-晓东。voice参数：Dylan

音色效果：

描述：北京胡同里长大的少年。

支持的语种/方言：中文（北京话）

5、四川-晴儿，voice参数：Sunny

音色效果：

描述：甜到你心里的川妹子。

支持的语种/方言：中文（四川话）

6、天津-李彼得，voice参数：Peter

音色效果：

描述：天津相声，专业捧哏。

支持的语种/方言：中文（天津话）

7、粤语-阿清，voice参数：Kiki

音色效果：

描述：甜美的港妹闺蜜。

支持的语种/方言：粤语

8、四川-程川，voice参数：Eric

音色效果：

描述：一个跳脱市井的四川成都男子。

支持的语种/方言：中文（四川话）

03.

结语：通义千问加速AI音视频翻译落地

Qwen3-LiveTranslate-Flash首次引入视觉上下文增强技术，让音视频AI翻译更上了一个台阶。

通义千问团队称，今后还将持续提升语音翻译的准确性、自然度、情感一致性，拓展更多语种的覆盖范围，增强在各种复杂语音环境下的翻译鲁棒性。

在语音翻译这个应用面推进技术进步的红海赛道，通义千问这次开源，或将大幅降低全球开发者在实时跨语言交流应用上的创新门槛，加速催生从国际会议、跨境直播到无障碍沟通等场景的下一代产品落地。

干掉同声传译？阿里又开源一模型，精通18种语言，离线可用图7

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

开源

more

RAL'25开源 | 清华新作EffoNAV：复杂环境的高效视觉导航方

3D视觉工坊 4天前

RAL'25开源 | 清华新作EffoNAV：复杂环境的高效视觉导航方

0925：云栖大会通义集中发布6款模型+1个全新品牌｜Meta FAIR发布代码世界模型CWM｜英伟达开源Audio2Face

机智流 5天前

0925：云栖大会通义集中发布6款模型+1个全新品牌｜Meta FAIR发布代码世界模型CWM｜英伟达开源Audio2Face

智源 RoboBrain-X0 开源，打破机器人跨本体泛化困境

BAAI具身智能 20小时前

智源 RoboBrain-X0 开源，打破机器人跨本体泛化困境

Nano Banana不及格，开源模型一分难求！上海AI Lab新基准直击文生图模型痛点

量子位 1周前

Nano Banana不及格，开源模型一分难求！上海AI Lab新基准直击文生图模型痛点

干掉同声传译？阿里又开源一模型，精通18种语言，离线可用

智东西 18小时前

干掉同声传译？阿里又开源一模型，精通18种语言，离线可用

软件全面开源开放，昇腾AI生态发展进入加速期

搜狐科技 4天前

软件全面开源开放，昇腾AI生态发展进入加速期

刚刚，DeepSeek开源V3.2-Exp，公开新稀疏注意力机制DSA

机器之心 1天前

刚刚，DeepSeek开源V3.2-Exp，公开新稀疏注意力机制DSA

代码生成要变天了？被质疑架空后，Yann LeCun携320亿参数开源世界模型“杀回来了”

AI前线 5天前

代码生成要变天了？被质疑架空后，Yann LeCun携320亿参数开源世界模型“杀回来了”

节前重磅：开源旗舰模型新SOTA，智谱GLM-4.6问世

机器之心 21小时前

节前重磅：开源旗舰模型新SOTA，智谱GLM-4.6问世

刚刚，LeCun团队开源首款代码世界模型！能像程序员一样思考的LLM来了

新智元 6天前

刚刚，LeCun团队开源首款代码世界模型！能像程序员一样思考的LLM来了

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号