Mistral AI发布开源语音合成模型Voxtral TTS，支持九语种实时生成拟人化语音

【科技24时区】法国人工智能公司Mistral AI于本周四正式推出其全新开源文本到语音（TTS）模型Voxtral TTS。该模型专为语音AI助手及企业级应用场景（如客户服务、销售互动等）设计，使企业能够构建高度定制化的语音智能体。此举标志着Mistral AI正式进入语音合成赛道，与ElevenLabs、Deepgram及OpenAI等头部厂商展开正面竞争。

Voxtral TTS目前支持包括英语、法语、德语、西班牙语、荷兰语、葡萄牙语、意大利语、印地语和阿拉伯语在内的九种语言。据Mistral AI科学运营副总裁皮埃尔·斯托克（Pierre Stock）在电话采访中向媒体透露，该模型体积小巧，可在智能手表、智能手机、笔记本电脑及其他边缘设备上本地运行，成本仅为市面上同类产品的“一小部分”，却具备业界领先的性能表现。

尤为引人注目的是，Voxtral TTS仅需不到五秒的语音样本即可克隆并适配个性化音色，并能精准捕捉说话者的细微口音、语调变化、重音模式乃至语流中的不规则特征。该模型基于Ministral 3B架构开发，支持在多语言间无缝切换而不丢失原始声音特质，特别适用于影视配音、实时翻译等跨语言交互场景。斯托克强调，团队在研发过程中始终以“拟人化”为目标，力求避免传统TTS系统常见的机械感。

在性能指标方面，Voxtral TTS展现出卓越的实时处理能力。其“首音频输出延迟”（Time-to-First-Audio, TTFA）——即从接收500字符输入到开始发声的时间——仅为90毫秒（以10秒音频为基准）。此外，模型的实时因子（Real-Time Factor, RTF）达到6倍，意味着生成一段10秒的语音仅需约1.6秒，显著优于多数竞品。

此次发布是Mistral AI今年语音战略布局的关键一环。早前，该公司已推出两款语音转写模型：一款面向大规模批量处理，另一款则专为低延迟实时场景优化。随着Voxtral TTS的加入，Mistral正逐步构建覆盖“语音输入—理解—输出”的全栈式企业语音解决方案。斯托克表示，公司最终目标是打造一个端到端的多模态智能平台，可同时处理音频、文本与图像的输入与输出。“端到端的智能体系统若能原生支持音频交互，将极大提升信息密度与交互效率，”他指出。

值得注意的是，Mistral AI延续其一贯的开源策略，将Voxtral TTS以开放权重形式提供，允许企业根据自身需求进行深度定制与私有化部署。这一差异化优势有望成为其撬动企业市场的关键——相较于封闭生态的竞争对手，客户可完全掌控语音模型的调优方向与数据隐私，从而在客服、营销、无障碍服务等高敏感场景中获得更高灵活性与合规保障。