Cohere发布开源语音识别模型Transcribe，支持14种语言但部分语种表现欠佳

【科技24时区】企业级人工智能公司Cohere于本周四正式推出其首款语音模型Transcribe。该模型为开源自动语音识别（ASR）系统，适用于会议纪要、演讲分析等场景。尽管参数规模仅为20亿，相对轻量，但Transcribe专为消费级GPU优化，便于用户本地部署。

目前，该模型支持包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语在内的14种语言。据Cohere介绍，Transcribe在Hugging Face Open ASR排行榜上以平均词错误率（WER）5.42的成绩领先于Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2以及Qwen3-ASR-1.7B Speech等竞品模型，成为该基准测试中表现最优者。

此外，在人工评估环节中，Transcribe在准确性、连贯性与可用性三项指标上的综合胜率达61%。然而值得注意的是，该模型在处理葡萄牙语、德语和西班牙语时表现逊于部分竞争对手，暴露出其多语言能力的不均衡性。

性能方面，Transcribe每分钟可处理高达525分钟的音频内容，这一吞吐效率在其同类模型中处于领先水平。Cohere计划将该模型集成至其企业级智能体编排平台North，并通过API免费开放使用。同时，Transcribe也将上线Cohere自有的托管推理平台Model Vault。

当前，随着Granola、Wispr Flow等语音笔记与口述应用需求激增，语音识别模型正迎来快速增长期。Cohere此举不仅强化了其在企业AI基础设施领域的布局，也反映出行业对可私有化部署、高性价比ASR解决方案的迫切需求。

值得一提的是，今年早些时候，Cohere曾向投资者披露其2025年年度经常性收入已达2.4亿美元。公司首席执行官艾丹·戈麦斯（Aidan Gomez）更公开表示，公司可能“很快”启动首次公开募股（IPO）。此次Transcribe的发布，或将成为其迈向资本市场的重要技术背书。