Mistral AI发布开源语音合成模型Voxtral TTS,支持九语种实时生成拟人化语音

科技区角 2026-03-27 00:03

【科技24时区】法国人工智能公司Mistral AI于本周四正式推出其全新开源文本到语音(TTS)模型Voxtral TTS。该模型专为语音AI助手及企业级应用场景(如客户服务、销售互动等)设计,使企业能够构建高度定制化的语音智能体。此举标志着Mistral AI正式进入语音合成赛道,与ElevenLabs、Deepgram及OpenAI等头部厂商展开正面竞争。

Voxtral TTS目前支持包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语在内的九种语言。据Mistral AI科学运营副总裁皮埃尔·斯托克(Pierre Stock)在电话采访中向媒体透露,该模型体积小巧,可在智能手表、智能手机、笔记本电脑及其他边缘设备上本地运行,成本仅为市面上同类产品的“一小部分”,却具备业界领先的性能表现。

尤为引人注目的是,Voxtral TTS仅需不到五秒的语音样本即可克隆并适配个性化音色,并能精准捕捉说话者的细微口音、语调变化、重音模式乃至语流中的不规则特征。该模型基于Ministral 3B架构开发,支持在多语言间无缝切换而不丢失原始声音特质,特别适用于影视配音、实时翻译等跨语言交互场景。斯托克强调,团队在研发过程中始终以“拟人化”为目标,力求避免传统TTS系统常见的机械感。

在性能指标方面,Voxtral TTS展现出卓越的实时处理能力。其“首音频输出延迟”(Time-to-First-Audio, TTFA)——即从接收500字符输入到开始发声的时间——仅为90毫秒(以10秒音频为基准)。此外,模型的实时因子(Real-Time Factor, RTF)达到6倍,意味着生成一段10秒的语音仅需约1.6秒,显著优于多数竞品。

此次发布是Mistral AI今年语音战略布局的关键一环。早前,该公司已推出两款语音转写模型:一款面向大规模批量处理,另一款则专为低延迟实时场景优化。随着Voxtral TTS的加入,Mistral正逐步构建覆盖“语音输入—理解—输出”的全栈式企业语音解决方案。斯托克表示,公司最终目标是打造一个端到端的多模态智能平台,可同时处理音频、文本与图像的输入与输出。“端到端的智能体系统若能原生支持音频交互,将极大提升信息密度与交互效率,”他指出。

值得注意的是,Mistral AI延续其一贯的开源策略,将Voxtral TTS以开放权重形式提供,允许企业根据自身需求进行深度定制与私有化部署。这一差异化优势有望成为其撬动企业市场的关键——相较于封闭生态的竞争对手,客户可完全掌控语音模型的调优方向与数据隐私,从而在客服、营销、无障碍服务等高敏感场景中获得更高灵活性与合规保障。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 开源
more
海尔智家2025年报:营收首破3000亿元,AI与全球化构筑增长新引擎
三星正式发布Windows版Samsung Browser,跨端协同与AI能力成亮点
红杉中国、Monolith领投AI健康硬件公司「Odyss」,金额近2亿元丨36氪独家
硅谷亲手砸掉自己饭碗?930万岗位正进入AI风险区
Anthropic最强AI模型Claude Mythos意外泄露,网安股应声重挫
联手多家电力巨头,英伟达新一代AI工厂年底落地
腾讯智能体全景图亮相,汤道生解密打造AI应用四板斧
开放 Siri,苹果决定打开万亿「AI 生态」
OpenAI全面收缩战线:聚焦企业与开发者核心业务
OpenClaw之父揭示中美AI应用“温差”:强制普及与安全限制形成鲜明对比
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号