小红书智创音频技术团队：SOTA对话生成模型FireRedTTS-2来了，轻松做出AI播客！

小红书智创音频技术团队近日发布新一代对话合成模型 FireRedTTS-2。该模型聚焦现有方案的痛点：灵活性差、发音错误多、说话人切换不稳、韵律不自然等问题，通过升级离散语音编码器与文本语音合成模型全面优化合成效果。在多项主客观测评中，FireRedTTS-2 均达到行业领先水平，为多说话人对话合成提供了更优解决方案。

论文标题：FireRedTTS-2: Towards Long Conversational Speech Generation for Podcast and Chatbot
技术报告：https://arxiv.org/pdf/2509.02020
Demo 链接：https://fireredteam.github.io/demos/firered_tts_2/
代码链接：https://github.com/FireRedTeam/FireRedTTS2

效果 Demo

一开口就像真人，播客生成不在话下。先来听一段 “Taylor Swift 恋爱消息” 的播报，你能分出这是真实录音还是 AI 合成吗？

答案揭晓！上方视频的声音并非真人，而是由基于数百万小时语音数据训练的 FireRedTTS-2 合成的播客音频。它对重音、情绪、停顿等细节把握到位，听感自然流畅。相比闭源的豆包，FireRedTTS-2 的播客生成自然度可与之媲美；更重要的是，它还支持豆包不具备的音色克隆能力：只需提供对话中每个发音人的一句语音样本，模型即可模仿其音色与说话习惯，自动生成后续整段对话。在开源对话生成模型中（如 MoonCast、ZipVoice-Dialogue、MOSS-TTSD），FireRedTTS-2 在多说话人音色切换的稳定性与韵律自然度方面处于行业领先，为 AI 播客等对话合成应用提供了工业级解决方案。

随着多模态大模型的快速发展，全行业对数据的需求与日俱增，尤其在语音识别与对话交互领域，训练需要大规模的多音色、跨语言音频数据。FireRedTTS-2 不仅支持随机音色生成，还开箱即用地覆盖中文、英语、日语、韩语、法语等多种语言。因此，它既能满足创新玩法的探索，也可作为高效的生产力工具，为下游任务生成高质量的对话 / 非对话音频数据。下方视频展示了不同随机音色、不同语言的生成效果。

对话合成背景

近来，多说话人对话合成被广泛应用于播客生成等下游应用场景。在实现方式上，传统方法通常先按说话人将对话切分，逐句独立合成后再拼接。这样的做法不仅繁琐，还容易导致句间韵律断裂，尤其在句子衔接处尤为不自然。

尽管目前出现了一些方法可以建模整段对话，但它们往往要求输入完整对话文本，并一次性输出包含所有说话人的整段语音，难以支持逐句生成。这不仅增加了后续编辑与处理的难度，也因其不够灵活而不利于在交互式对话场景中应用。此外，这类方法的合成质量仍不稳定，常见问题包括发音错误、句子间说话人身份混淆以及合成的语音韵律不够自然。

FireRedTTS-2 系统简介

为解决当前对话合成系统存在的灵活性不足、合成质量欠佳等问题，FireRedTTS-2 升级了 TTS 系统的两大核心模块：

离散语音编码器（Speech tokenizer）：12.5Hz 低帧率，具有更强语义信息，且支持流式解码
文本语音合成模型（Text-to-speech model）：支持逐句生成，合成稳定且质量高

离散语音编码器

离散语音编码器将连续语音信号压缩为离散标签序列，便于大语言模型处理。FireRedTTS-2 采用的语音编码器以 12.5Hz 的低帧率输出：即 1 秒仅对应 12.5 个标签。对于对话建模，这缩短了语音序列长度、即提升了速度，又缩小了与文本序列的长度差距，降低了大语言模型的建模难度。为增强语义表达，编码器在训练时引入预训练模型提取的语义特征，并对离散标签进行语义监督，使标签携带更丰富的语义信息，帮助模型更容易学会从文本到语音的映射。除此之外，它还支持流式解码，可实时输出音频，便于无缝接入各类流式交互应用。

在训练策略上，离散语音编码器先在约 50 万小时的多样化语音数据上训练，以提升泛化能力；再在其中约 6 万小时的高质量语音上继续训练，优化重建音质。

文本语音合成模型

为提升对话合成的灵活性，FireRedTTS-2 采用文本 - 语音混排的格式，支持逐句生成，便于后续编辑与多场景适配。混排格式将对话文本与语音组织为：“[S1] 说话人 1 文本 + 语音 [S2] 说话人 2 文本 + 语音 [S3] 说话人 3 文本 + 语音…”，其中 [S1]、[S2]、[S3] 为说话人标签，用于区分不同角色。

在模型架构上，为更充分地利用对话上下文，FireRedTTS-2 采用 “双 Transformer ” 的设计：

1.5B 参数的 Backbone Transformer 负责建模混排序列中语音的粗粒度信息
0.2B 参数的 Decoder Transformer 补充语音中的声学细节

相比常用的 Delay pattern 方法，该架构充分利用了上下文中的文本与语音，可以生成更自然、连贯的对话语音；同时支持低首包延迟，配合离散语音编码器的流式解码，实现更快起播。

FireRedTTS-2 采用两阶段训练：先在 110 万小时单句语音上预训练，夯实合成基础；再用 30 万小时对话语音继续训练，覆盖 2–4 人对话场景。由此可稳定生成高质量对话语音，准确处理说话人切换，保持上下文一致与自然韵律。面向应用场景， FireRedTTS-2 仅需少量数据即可实现微调，快速完成音色定制。

FireRedTTS-2 效果比较

为评估对话合成效果，FireRedTTS-2 与 MoonCast、ZipVoice-Dialogue、MOSS-TTSD 等其他系统在自建的中英文对话测试集上进行了比较：

客观上，比较了对话合成的正确率（CER/WER）、对话间说话人保持能力（SIM）、以及与真实录音之间的差距（MCD）
主观上，FireRedTTS-2 与其他系统进行了偏好打分（CMOS）

结果显示，FireRedTTS-2 在主客观指标上均为最优，显著降低发音错误，避免说话人混淆，具有更真实的韵律表现，为对话合成提供了更优解。

同时，FireRedTTS-2 只需约 50 小时的特定播客说话人录音即可完成音色定制，使对话合成的自然度逼近真人。在自建中文对话测试集上，我们开展了客观（CER）与主观（自然度偏好）评测：微调后 CER 仅为 1.66%；主观听评中，28% 的测例被认为比真实播客录音更自然，另有 28% 难以区分二者。总体来看，56% 的测例表明其自然度已达到或超过真实录音。

总结与展望

FireRedTTS-2 针对当前对话合成的两大痛点：无法逐句生成（灵活性差）与合成质量不稳定（发音错误、说话人切换混乱、韵律不自然），升级了两项关键模块。

离散语音编码器：低帧率、语义信息丰富，缩短语音序列、降低长对话建模难度并提升稳定性；支持流式解码，适配实时场景。
文本语音合成模型：采用文本 - 语音混排输入，支持逐句生成；双 Transformer 架构充分利用文本与历史语音上下文，合成更自然、连贯的对话语音；具备低首包延迟，配合编码器的流式解码实现快速起播。

从结果上看，FireRedTTS-2 在各项主客观指标上均优于 MoonCast、ZipVoice-Dialogiue、MOSS-TTSD 等系统，为对话生成提供了更优的解法。未来团队将持续优化 FireRedTTS-2，拓展支持的说话人人数与支持的语种，并解锁可控音效插入等更多玩法。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com