Cohere发布开源语音识别模型Transcribe,支持14种语言但部分语种表现欠佳

科技区角 2026-03-27 00:02

【科技24时区】企业级人工智能公司Cohere于本周四正式推出其首款语音模型Transcribe。该模型为开源自动语音识别(ASR)系统,适用于会议纪要、演讲分析等场景。尽管参数规模仅为20亿,相对轻量,但Transcribe专为消费级GPU优化,便于用户本地部署。

目前,该模型支持包括英语、法语、德语、意大利语、西班牙语、葡萄牙语、希腊语、荷兰语、波兰语、中文、日语、韩语、越南语和阿拉伯语在内的14种语言。据Cohere介绍,Transcribe在Hugging Face Open ASR排行榜上以平均词错误率(WER)5.42的成绩领先于Zoom Scribe v1、IBM Granite 4.0 1B、ElevenLabs Scribe v2以及Qwen3-ASR-1.7B Speech等竞品模型,成为该基准测试中表现最优者。

此外,在人工评估环节中,Transcribe在准确性、连贯性与可用性三项指标上的综合胜率达61%。然而值得注意的是,该模型在处理葡萄牙语、德语和西班牙语时表现逊于部分竞争对手,暴露出其多语言能力的不均衡性。

性能方面,Transcribe每分钟可处理高达525分钟的音频内容,这一吞吐效率在其同类模型中处于领先水平。Cohere计划将该模型集成至其企业级智能体编排平台North,并通过API免费开放使用。同时,Transcribe也将上线Cohere自有的托管推理平台Model Vault。

当前,随着Granola、Wispr Flow等语音笔记与口述应用需求激增,语音识别模型正迎来快速增长期。Cohere此举不仅强化了其在企业AI基础设施领域的布局,也反映出行业对可私有化部署、高性价比ASR解决方案的迫切需求。

值得一提的是,今年早些时候,Cohere曾向投资者披露其2025年年度经常性收入已达2.4亿美元。公司首席执行官艾丹·戈麦斯(Aidan Gomez)更公开表示,公司可能“很快”启动首次公开募股(IPO)。此次Transcribe的发布,或将成为其迈向资本市场的重要技术背书。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源 语音识别
more
FOSSASIA 峰会 2026 | 与亚洲开源社区建立连接
香港RISC-V联盟正式成立,产学研投跨界协同,赋能开源芯片生态,建立国际交流门户与场景应用枢纽
美国开源AI最后的旗帜,也倒了
腾讯纯文本LLM训视觉encoder,拿捏图表长视频,达到开源小模型SOTA!
今日看点:英伟达将推智能体开源平台NemoClaw;苹果推迟智能家用显示器发布,等待新版Siri
开源底座驱动全球AI工具链:Cursor Composer 2事件折射中国模型出海新范式
阿里辟谣“千问团队集体离职”传闻,强调开源战略不变并加大AI人才引进
全国首个开源鸿蒙+RISC-V智慧高速方案落地深圳,机荷高速迈入施工筹备阶段
你的电子老婆开源了!登顶GitHub热榜
全球OCR新王来自中国开源!GitHub狂揽73300+Star
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号