
作者|Cynthia
沉寂已久的语音大模型的市场,在 2025 年又重新热了起来。
硬件端,如果以单品销量突破百万为标志,那么 Plaud 为代表的 AI 转录笔、AI 耳机,这些与 AI 语音强绑定的硬件,或许是大模型落地中为数不多成功的品类。
同时,伴随阿里、字节等大厂,华米 OV 等传统硬件公司,乃至 ikko、时空壶、黄鹂智声等创新硬件公司下场,语音 AI 硬件已经成为炙手可热的品类。
硬件端的热度,传导到算法层:今年以来,包括 OpenAI GPT-4o 语音系列、Anthropic Claude 语音模式、Mistral Voxtral 系列、ElevenLabs Eleven v3 等语音模型先后亮相。
到了年末,发布变得更加密集,微软 12 月 23 日开源 VibeVoice-Realtime-0.5B、谷歌 12 月 11 日推出 Gemini TTS 2.5,xAI 12 月 17 日发布 Grok Voice Agent API……
紧随其后,12 ⽉ 23 ⽇的飞天发布时刻,阿里官宣升级与发布通义百聆系列:Fun-ASR(语音识别)、开源版Fun-ASR-Nano(0.8B); Fun-CosyVoice3(语音合成)、开源版 Fun-CosyVoice3(0.5B);同日,Fun-Audio-Chat(端到端语音交互)发布,并宣布开源 Fun-Audio-Chat-8B,接力棒开始逐渐传递到中国团队的手中。
至此,一个越来越清晰的信号已经出现:相比文本类模型免费产品内卷,视频类模型卡在成本高但付费率低的困境;2025 年率先实现 PMF 的大模型类别,或许出现在语音赛道。
那么语音大模型是如何又火了起来?背后的原因几何?为什么又说它会是最早实现 PMF 的大模型类别,而市场又需要怎样的语音大模型?
我们不妨以最新升级发布 Fun-ASR 模型与 Fun-CosyVoice3 模型为代表,来拆解这场语音赛道的逆袭之战。
01
如果回望 2024 年百模大战,大概会发现一个细节:当时几乎所有 AI 发布会,都会把长文本或者炫酷的视频生成作为主菜,而语音模型,往往只作为企业具备全模态 AI 能力的一个不起眼的佐证,被一笔带过。
这种边缘化并非偶然。早在前一波 AI 浪潮中,ASR(自动语音识别)和 TTS(文本转语音)就已展现出「早熟」特质:会议软件的实时转写、社交 APP 的语音转文字,这些功能早已打得满场开花,让市场产生了语音 AI 市场早已饱和的错觉。
但这种饱和的本质,其实是一种技术完成度 90% 带来的错觉。ASR(自动语音识别)的准确率看似很高,日常对话能到 90% 以上,但一碰到专业场景就掉链子:
金融会议上,「LPR 利率」能被识别成「LPR 利润」,差一个字就让数据失去意义;医疗问诊中,「肾小球滤过率」被转写成「肾小,求过滤」,专业术语直接变外行话。
而 TTS 的尴尬更直观,早期合成音要么像机器人读课文,平铺直叙毫无感情,要么连「不太行(xíng)」和「太行(háng)王屋」这样的多音字都分不清,更别提还原真人说话时的呼吸间隙、情绪波动,甚至偶尔的卡顿细节。
也正因此,语音技术长期被困在网页朗读、导航播报等低价值场景里,无法触及数字人、有声书、商业配音等高价值领域。
直到大模型技术的突破,终于补上了最关键的 10%。
首先是音频建模难题的破解。过去 TTS 的核心痛点,是自然度:怎么让 AI 知道一句话里该重读哪个词、哪里该停顿。比如「我今天吃了三碗饭」,正常人会重读「三碗」强调数量,但早期 TTS 可能把「今天」读得最重,来虽然没错,但对会听众,就会造成昨天没吃饭的潜层含义误读。
而大模型通过学习海量真人语音的韵律特征,不仅解决了重音、多音这样的老问题,甚至能还原出笑场、阴阳怪气这类细微情绪,Fun-CosyVoice3 甚至已经能做到开口即真声,说什么都像本⼈,会笑、会喘、有情绪,具有百种好听⾳⾊任你选。
其次是 ASR 从「逐字转写」到「语义转写」识别准确率的最后一公里突破。传统模型只能做语音转码工,遇到口语化表达、网络热梗、场景化表达就抓瞎。比如有人玩梗说「后人管乾隆叫章总」,过去的模型可能把「乾隆」识别为「潜龙」或者「钱龙」,甚至断句成「管钱、龙」,相应的后半句「章总」的调侃,也会被误识别为「张总」。而 Fun-ASR 能直接识别为专业缩写,甚至能根据上下文判断「章总」是特定指代,而非「张总经理」的简称。
建立在此基础之上,硬件商业模式的跑通,成了语音大模型爆发的催化剂。市场逐渐意识到,AI 时代的交互模式中,语音或许会智能手机时代的触摸+视觉更加便捷。
人和人之间最直接的交互媒介是语音,但不同语种人群如何交流需要借助 AI 语音翻译;冗长的会议过程,如何提升效率、总结重点,同样离不开语音技术。
此外,过去需要打开某个功能,即使熟练操作的年轻人,也需要在 APP 不同一二级入口、小程序之间跳转,在此之前,还需要先躲过摇一摇的漫长开屏暴击。毕竟,一不留神,就会从学习软件跳到外卖 APP——知识大门里的精神食粮还颗粒未见,外卖员就已经带着深夜奶茶炸串按响了家门口的门铃。而 AI 时代,只需要一句命令,「帮我打开 XX 软件的《哲学二十讲》有声书,1.5 倍速播放」就能一切搞定。对年轻人而言,是效率提升,是不熟悉操作的老年人来说,则是拥抱智能时代最简单的方式。
语音,也在这一时期有了成为 AI 时代硬件超级入口的可能。
与此同时,相比需要在云端才能高效运行的视觉、文本大模型,语音模型被本地化的难度更低、模型效果损失更低,也更容易被直接搭载到手机、耳机、眼镜等现有硬件形态。
这一点,华强北的商家最有发言权。有媒体调查发现,在华强北,一个摄像功能的眼镜需要至少三五百,而一个搭载语音功能的耳机,借助快速成型的模组解决方案、软件解决方案、组装、分销等细分产业链环节,最低几十元就能拿货,一举在今年年初就卖成了爆品,甚至远销海外,以 9.9 美元的价格血洗美国市场。
而当所有人都涌到语音硬件赛道淘金时,提供核心算法的卖铲人,自然迎来了最好的时代。
02
语音模型的能力,会直接决定整个市场的天花板。
但过去一个行业常见的技术难题在于:客户想要一个能识别所有场景的 ASR 模型,最后发现,连他们公司的简称都识别不出来。这本质其实是场景的碎片化,与模型通用性的冲突。
场景层面,客户需要模型能够应对复杂环境、能应对强背景音干扰、实时流式输出。能力上,还要支持中英文混合输入、多语言与方言、能够理解场景词、支持声音定制,最好还能被安装进本地硬件。
但很显然,一个模型不可能解决以上所有难题。
也是因此,此次发布的通义百聆,除了满血 Fun-ASR、Fun-CosyVoice、Fun-Audio-Chat 模型,还同步开源了Fun-ASR-Nano(0.8B)、Fun-CosyVoice3(0.5B),Fun-Audio-Chat-8B,针对不同场景做了精准打击。
接下来,我们可以通过几个典型案例,看看不同场景下,好的语音模型该具备哪些能力。
语音技术当前最常用的刚需场景当属会议。在此场景下,会议录音转写是刚需,但也是痛点:会议室里的空调声、翻笔记本的杂音、远处同事的讨论声,突然的咳嗽声,都会让 ASR 集体失聪。
Fun-ASR 针对这个场景做了远场降噪优化。通过模拟会议室、车载、工业现场等 高噪声环境,用强化学习(RL)训练模型过滤干扰音。实测数据显示,以上复杂的场景下,Fun-ASR 的识别准确率能达到 93%。

更实用的是流式识别能力。传统 ASR 需要等整段语音结束才能输出文字,而 Fun-ASR 支持边说边出字,首字延迟低至毫秒级别。也就是说,你刚说完「接下来我们讨论 Q4 计划」,文字就已经出现在屏幕上,这对实时字幕、会议直播等场景至关重要。
会议之外,多语言混说的翻译场景,也是很多跨境商家、留学党、出国旅游党的一大痛点。 做跨境电商谈判的商家可能遇到过这种尴尬:和日本客户沟通时,既要和同事说中文「这个产品的毛利率是 20%」,又要对客户说日语「発送時間は 3 日です」(发货时间 3 天),还夹杂英文「MOQ 是 100 件」,传统 ASR 要么只能识别单一语言,要么把「MOQ」拆成「M-O-Q」。
Fun-ASR 支持 31 种语言的自由混说,不需要预先设置语种,模型就能自动判断并识别。比如输入「このカフェの wi-fi が不安定で、google meet で切断された」(这家咖啡馆的 WiFi 不稳定,在 Google Meet 上断连了),其中包含得日语、英文,Fun-ASR 都能准确转写。
翻译场景除了需要准确,如果能做到翻译音色与原始音色保持一致,那么在商务洽谈、文化内容出海等场景中将极大提升表达的效率。为此,Fun-CosyVoice3 在能力建设上,支持了跨语种音色克隆。基于用户的普通话录音,就能生成粤语、日语、英语的语音,覆盖 9 大语种 + 18 种中文方言及口音。

比如用一段中文「今天天气很好」的录音,克隆后生成日语「今日は天気が良いです」,听感上几乎是同一个人的发音,相当于一个人顶一个翻译+配音团队。并且⾸包延迟下降 50%,交互更丝滑,显著提升语⾳助⼿、智能客服等场景下的响应感知。
除了以上通用场景,对医疗、金融、工业等领域的语音识别来说,最大的难点是专业术语。比如医疗会议中的「肾小球滤过率」「三磷酸腺苷」,金融讨论中的「LPR 加点」「量化宽松」,如果 ASR 不认识这些词,转写结果就会变成天书。
Fun-ASR 引入了 RAG(检索增强生成)机制,解决了这个痛点。简单来说,就是给模型建了一个专业词典库:用户可以导入行业术语(比如医院的科室名称、金融的产品名称),模型在识别时会自动检索词典,确保专业词不被认错。更关键的是,这个词典库的容量从传统的 1000 条扩展到 10000 条,且不影响通用场景的识别准确率。
尤其值得一提的场景是数字人、AI 客服、AI 硬件交互这样的高价值场景。过去要想这些场景的实时智能互动,通常需要 ASR + LLM + TTS 多模块拼接。这不仅会造成模型架构上的冗余臃肿、部署链路繁琐,还会因多模块间的数据传输、指令调度产生大量耗时,让整体的首包延迟大幅增加,很难满足实时交互的体验要求。比如数字人直播出现嘴型与应答脱节、AI 客服让用户等待过久、智能硬件语音交互有明显卡顿感。
Fun-Audio-Chat 则能实现直接用户语音输入-模型语音输出的端到端能力,并且保持整体的高智商、高情商、及时反映。此外,用户还能用它实现情绪、说话风格、语速、高低音、音量的定制。从而在数字人场景中,让虚拟主播、虚拟讲师、政企数字分身的语音表达更贴合人设;在 AI 客服场景里,定制符合企业品牌调性的沟通语态,适配金融、教育、政务等不同行业的服务规范。
而对数据敏感的场景(比如机房巡检、军工设备)来说,除了要准确率、实时率,语音模型还不能联网,必须本地部署,这就要求模型体积小、性能强。
通义此次开源的 Fun-ASR-Nano(0.8B)和 Fun-CosyVoice3(0.5B)、Fun-Audio-Chat-8B,就是为本地部署设计的。Fun-Audio-Chat-8B,其参数量意味着,用户借助一张 24GB 的 4090 就能以 FP16 的精度在本地运行模型,实现高质量的端到端语音交互;Fun-ASR-Nano 以及 Fun-CosyVoice3-0.5B 更夸张,0.8B 以及 0.5B 的参数,也就意味着其在手机端这样的移动终端上就能实现实时语音识别与语音合成(FP16 精度格式下,静态存储成本约为 1G,动态运行开销大概为 1.5G,和 MOBA 类手游团战场景的开销不相上下)。
03
AI 耳机、转录笔的爆发,让市场看到了语音赛道的巨大潜力。但要做好语音大模型这门卖铲人的生意,门槛远比淘金的硬件厂商更高——它不仅要求技术过关,还需要企业同时具备开源运营与商业化能力。
商业化不必多说,这是核心的收入来源。
开源的意义则在于满足语音场景的碎片化需求。从 Transformer 到通义千问 Qwen、通义万相 Wan,开源一直是 AI 技术突破的关键。对语音赛道来说,不同行业、不同场景的需求千差万别,单靠厂商的标准化 API,远远无法满足所有个性化需求。而通过共享基线模型,开发者可以低成本地进行差异化探索,比如优化特定方言与场景的识别、提升小语种的合成质量。
阿里通义团队的实践印证了这一点:从 2023 年至今,其已开源的 300 多款模型,覆盖文本、视觉、语音等全模态,参数从 0.5B 到 480B 全尺寸。这种开源策略,不仅让创业公司、个人开发者能低成本利用高精度语音模型搭建应用,也让阿里通过生态效应掌握了赛道主动权。
更重要的是,开源降低了语音技术的普及门槛。过去,只有大厂才有能力研发高精度语音模型,而现在,创业公司甚至个人开发者,都能通过 Fun-ASR-Nano、Fun-CosyVoice3-0.5B 以及 Fun-Audio-Chat-8B,快速搭建自己的语音应用。
而当 AI 耳机、AI 转录笔、智能巡检设备等硬件,都能基于这个底座快速在不同场景落地时,过去一年的 AI 耳机、AI 会议转录爆发,或许只是语音模型跑通 PMF 的起点。