AI播客的未来是成为每个人的音频助手,事实性、完整性和活人感都很重要|对话ListenHub

量子位 2025-09-21 16:00
分析师 刘萌媛 刘铁鹰
量子位智库 | 公众号 AI123All

随着豆包和元宝两大头部智能助手的入场,能够在短短数分钟内将任何内容(话题、链接或文档)转为对话式播客的AI播客工具从小众走向了大众视野。但疑问依旧重重——

为了回答这些疑问,量子位智库邀请了入围2025年H1创新AI 100榜单的AI播客工具ListenHub,进行了一场深入交流。

资讯配图

在这次访谈中,创始人橘子老师将ListenHub定义为未来每个人的音频助手,可以涵盖播客、文章甚至长内容等任何用户需要的音频内容形式。结合ListenHub的实例,我们也看到AI播客产品(包括未来的Agent形态)中包含的know-how和细节设计远超想象。

此外,橘子老师也分享了自己作为多年AI产品负责人和创业者,对AI时代产品在发布时间、付费设计、需求收集等方面的落地看法。

无论是AI播客的爱好者或者开发者,还是初创公司,期待大家都能够从本次访谈中找到一些属于自己的参考。

关于ListenHub:

资讯配图
ListenHub主界面

核心功能

AI播客:可将文字、网页、文档等内容一键转化为自然流畅的播客音频,支持双人或单人模式,提供多种音色选择,适合高效获取信息或创作播客。

FlowSpeech:全球首个将书面语转化为口语化音频的TTS功能,能精准还原文字内容,支持用户定制专属音色,尤其适合需要自然语音输出的场景,如有声读物、教学讲解等。

资讯配图
ListenHub依据量子位文章所生成的AI播客

Key Takeaways:

资讯配图

以下为ListenHub创始人橘子老师和量子位智库的详细对谈内容。在不改变原意的基础上,量子位智库进行了部分内容修改及简化。

访谈实录分割线

1、核心定位为「创作者的AI嘴替」,信息整理Agent是AI播客产品的核心

量子位智库:FlowSpeech使用效果很惊艳。想了解从TTS技术到最终完整交付,中间有哪些链路设计及产品工程化设计?

ListenHub:这个其实要从ListenHub开始说。我们做ListenHub时,定位是创作者的AI播客制作工具

我们做出海时,有个用户发邮件联系我,问产品怎么用。其实这个产品很简单,把文字或链接放进去就能输出播客,我从没想着写教程,他问有没有视频教程,我就说没有但可以现在写,之后打开Notion写了一份发给他。

他学会后,我们开始邮件沟通,后来我发现他是位85岁的美国老人,得了肺纤维化,已经四年说不出话,但没被疾病打倒,在线上组织了一个汇集美国所有肺纤维化病人的社区,有5万人。他很想表达,想通过社区传递肺纤维化相关知识和情绪价值,让社区变得更好。

他用ListenHub的方式,是把很多资料和心得放进去,让两个主播聊这些内容,再呈现给社区。我们和他聊时发现,他非常想表达,播客只是其中一种方式,所以我们就想能不能把播客中的某一环单独拎出来做。

播客制作其实可以理解为有三层Agent在处理:一层负责信息获取,包括公网和私域信息;另一层做内容整理,把海量信息整理成结构化材料;第三层把材料转换成口语

我们把第三层口语转换部分单独拎出来,做了FlowSpeech这个产品。做出来后,希望它能成为社区维系者或创作者的“嘴替”,不仅能做播客,还能帮他读文章、读小说、准备演讲,各种形式都放开,初衷就是这样。

量子位智库:“内容材料处理”部分是由另一个Agent负责吗?技术上具体如何实现?比如模型微调或工程化方面。

ListenHub:这部分源于我们做播客时积累的很多know-how。

一般AI公司可能更侧重AI技术研发,但我们因为做内容,在播客制作上看了很多关于如何做好传统播客节目的论文,把论文中语言、表达等方面的know-how融入产品。

再结合ListenHub已上线两个多月,有很多付费用户每天提产品建议,我们也把用户的know-how吸收进来,放到Agent里,这样就让效果变得很好。

量子位智库:三层Agent中,第一层类似AI搜索+AI写作,扩充原始文本;第二层加入播客制作know-how;第三层调整语音适配播客或FlowSpeech的新形式,这样理解对吗?

ListenHub:对,整个产品可以这样理解。

现在的AI产品本质上都在做上下文工程,你可以理解为上下文里包含这些信息:用户输入的所有材料、AI主播的性格特征和说话方式、制作播客或其他内容的know-how。这些上下文拼在一起,就能输出较好的结果。

中间会有好几步,这些步骤是Agent动态规划和处理的过程,不是单纯的一个Prompt。它会根据材料的介质(比如是文章、书籍还是PPT)和主题,自动选择合适的讲述方式,再输出结果。

量子位智库:ListenHub作为大的Agent综合体,和市面上像深度研究这类通用型Agent产品相比,有什么不同之处?

ListenHub:我觉得深度研究是所有Agent都会包含的功能,比如今天的Manus、Genspark、天工Skywork,都用了深度研究技术,它有点像AI搜索升级后的形态。

我们做的是音频Agent,本质上也用到这个技术,这件事本身没有差异性,差异性在于交付的内容。

比如Manus这类产品,一般交付PPT或网站,也能做播客;而我们定位不同,我们是AI创作者的“嘴替”。他们的定位可能是通用Agent,帮大家输出PPT、网页用于展示或销售等。

量子位智库:想了解产品开发中,有哪些用户不易注意但影响最终体验的细节?

ListenHub:用户一开始用,可能很难注意到我们的播客和豆包、NotebookLM的区别,但付费用户用多次、听完一两期后,会明显觉得我们的内容质量更高。

举个例子,我们最近和温州交通广播有个意外合作。他们是正规广播电台,想新办一档讲述温州文化和历史的节目,希望用AI加速制作,最终选了我们。

我们问他们为什么选我们,他们说发现我们基于温州历史文化材料做播客时,没有“幻觉”,这说明我们的上下文管理做得很好。

现在用其他产品做类似内容,很多细节会被AI捏造,但我们的AI会忠于原文,在此基础上把内容变成播客,这是很大的不同点。

量子位智库:解决上下文问题,是因为选了更合适的底模,还是有RAG等辅助手段保证效果?

ListenHub:首先,工程链路优化我们花了很多时间,这是个综合工程,但核心是中间负责信息整理的Agent。

我们对这个Agent有几个重点要求:第一是事实性,制作内容肯定不希望有“幻觉”,所以事实性很重要;

第二是内容完整性,我们的Agent很少漏东西,会有校验循环步骤防止漏内容;

第三才是把内容转成双人对话,让它有自然感、活人感

前两部分的Agent设计,要参考很多论文的know-how才能做好,这方面要钻研得非常深。

量子位智库:想了解ListenHub从立项到现在的发展,用一句话怎么定义它?长远来看有什么期望?

ListenHub:ListenHub的定位很简单,就是“创作者的AI嘴替”。长远来看,不管是做播客、有声书、脱口秀、相声,还是视频号口播,只要需要声音,我们希望有一个AI能帮用户表达。

2、付费用户大部分是自媒体从业者,逐字编辑等特色功能让ListenHub从AI播客脱颖而出

量子位智库:目前ListenHub最主要的用户群体是哪类?是个人创作者还是机构?需求是个人创作还是商业化(如营销)方向?

ListenHub:现在很明确,看付费用户就知道,大部分是自媒体从业者。

他们有的做营养和医学领域,有的做汽车,有的做财经,都有自己的自媒体号,每天写公众号或发视频号,ListenHub成了他们创作的必备工具。

比如做公众号,写文章很累,把材料整理好丢给ListenHub,它会输出播客脚本和音频,把脚本内容粘贴到微信公众号,一个字都不用改就能发,效果很好。

量子位智库:听起来像创作者的“第二分身”。

ListenHub:对,因为我们的口语化处理和材料整理做得特别好,所以用户能直接用,不用改一个字。

而且创作者发现,哪怕把财报放进去做公众号解读,内容也没有“幻觉”,里面的数字都非常准确,他们会校对,但最后发现没问题。

量子位智库:国内做AI播客产品的不少,为什么只有ListenHub能做到这种精准水平?

ListenHub:这可能和我们的定位有关,我们定位是最专业的AI播客工具。和NotebookLM、豆包相比,我们有几个独有的功能:

第一是支持逐字编辑,上传内容后,觉得某些字或表达方式不好可以删掉,也能添加开头打招呼、结尾说再见等内容,完全支持自由编辑;

第二是可以更换音色,既能用我们默认的优质音色,Pro会员还能定制音色,用自己的音色表达——这很重要,音色是个人品牌,能让用户记住你,而NotebookLM只有两个音色,大家都用就没有差异化;

第三是不仅能做双人播客,还能做单人播客,单人播客在科技、财经等信息密度高的领域更合适,比如得到、樊登读书也以单人为主,信息输出效果更好。不是双人技术难度高就一定好,要结合用户实际场景,用户和粉丝觉得好才是真的好。

3、先抛出MVP(最小可行产品),前100个付费用户带来最有价值的需求

量子位智库:这些精巧功能的需求是怎么发掘的?如何确定用户有打造自媒体特色的需求,又怎么设计对应功能?

ListenHub:我做产品有个原则:先抛出MVP(最小可行产品),找到第一波用户,尤其是付费用户——前10个和前100个付费用户非常重要,而且不能是朋友,得是陌生人。找到这些用户后和他们聊,他们的需求会特别真实。

我们很多用户是国内四五十岁以上的人,超出我们的预期。他们使用产品时会遇到很多问题,也有很多需求,希望降低产品使用门槛,我们就和他们深度沟通。

因为要定制功能,所以花了很多时间和每个用户聊天,前100个用户我们都当成朋友沟通。这部分投入的时间和精力,帮助产品越做越好。

量子位智库:第一批用于收集MVP反馈的种子用户,没有借助现有共同圈子的话,是怎么获得的?

ListenHub:首先还是需要基础曝光。我自己做自媒体,也有很多做自媒体的朋友,会号召大家帮忙转发,获得基础的1万次曝光,再从这些曝光里筛选适合的用户。基础曝光没那么难,找朋友帮忙或找KOL体验产品就行。

量子位智库:获取100个付费用户会不会有挑战?

ListenHub:获取100个付费用户挺有挑战的,因为我们定价不低,Pro版一年要1000多块钱。

对大部分人来说,需要仔细考虑才会决定付费,比大家想象的难,不是朋友打赏、发红包那么简单——用户要真的掏出钱,觉得用得上才会付费。

一开始有用户问我们能不能支持某个功能,说支持就愿意付费。我们考虑后发现功能不难,就做了出来,然后发邮件或在微信上通知用户,用户很开心,就买了年费会员,就是这样一个一个积累的。

4、凡是有助于「用户付费」的功能,都有更高的开发优先级

量子位智库:产品经理常会收到大量需求,因资源有限,既要判断需求必要性,又要确定功能开发优先级。ListenHub怎么判断需求必要性?功能开发优先级有什么策略?

ListenHub:需求判断上,用户多了之后其实很好判断。比如有三个用户需要某个功能,那这个功能肯定很重要。

一开始上线时,用户提想要编辑功能,我们觉得AI时代不该需要手动编辑,而且编辑功能开发时间长,就跟用户说想做纯AI播客,让AI帮用户做所有事。

但有了付费用户后发现,他们要把内容做好发视频号,有错字会很影响体验,所以还是做了编辑功能,而且用AI来做,让我们的编辑功能成为所有产品里最简单、最好用的。

编辑的本质是处理文本,我们让AI处理用户编辑好的文本,不用像以前那样在多个框里改字拼接。用户可以直接编辑文本,也能用豆包、Kimi处理文本后粘贴到我们产品里,直接生成新内容。这种方式解决了所有问题,开发成本低,用户也喜欢。

功能开发优先级的核心指标是用户付费——凡是为用户付费服务的功能,我们都认为优先级高。

量子位智库:用户付费方面,有没有和预期不太一样的地方?

ListenHub:有。一开始定价9美金每月,用户反馈最多的是“不够用”。我们就升级到19美金的套餐,用量翻到2.5倍,基本就够用了。

除了自媒体用户,还有意外的企业用户。比如有个化妆品品牌,很多成分用户不知道用途,他们把成分报告和说明放到ListenHub里,生成内容给内部4000人做培训,这4000人每天听ListenHub学习材料。

还有做NFC卡、RFID芯片出海的用户。芯片很抽象,需要很多应用场景,他们就网上找信息,用ListenHub生成场景内容,讲解芯片如何应用到硬件里,用量很大,一周就用完了,还需要加买套餐。

5、AI应用公司擅长在单个场景把60分的模型通过工程化提升到90分的产品

量子位智库:有没有领先市场需求的功能?怎么开发这类功能?又怎么教育用户?

ListenHub:FlowSpeech就是这样的功能。

以往所有TTS都是直接把文字转语音,但我们做播客时知道,把书面语直接读出来是不对的,文字里蕴藏着很多智能——自然的表达中,书面语和口语是完全不同的两种方式。我们认为这件事很重要,就第一个做了,而且有一定技术挑战。

技术壁垒可能不高,大厂想抄或许几天就能做到,但我们觉得这个实际问题没人解决,有责任去解决。做完后刚宣发,很多用户说“很需要这个功能,以前没人想到做”,觉得我们在解决真实小痛点。

这就是AI应用公司和模型公司的区别:模型公司做一套模型覆盖多个场景,每项可能只做到六七十分;AI应用公司会把60分的东西,通过工程化提升到90分,满足用户实际需求

量子位智库:从用户观察来看,在内容创作或语音相关场景,有哪些用户关心但纯技术导向、离场景远的公司没注意到的点?

ListenHub:我们最近在海外开发嵌入式播放器,意思是现在分享ListenHub链接就是个普通链接,开发完后,分享链接会变成可嵌入各种网页的播放器,成为文章的一部分。

这个技术在海外比较流行,国内因为生态问题没人支持,但其实很重要。这种需求只有和用户深度沟通才能发现,而且有一定技术难度。

6、用户参与内容生产后的「Aha Moment」,是转化付费的关键

量子位智库:付费率是北极星指标,从用户接触产品到付费有长转化路径。倒推一步,哪些二级指标对付费率至关重要?

ListenHub:第一个是用户注册。用户注册之后才能生成。

另一个是付费用户反馈,他们的“Aha Moment”(顿悟时刻)出现在第一次自己生成内容、听完生成的音频时,这时就会想付费。

所以我们很重视这个转化——如果用户只在探索页听别人做的内容,感受不到“Aha Moment”,因为我们的音频内容和小宇宙、喜马拉雅没有本质区别。

只有参与生产,才能意识到“原来这么方便,能把以前没法读的内容变成可听的”。很多人跟我们说,以前想读某本书但太难读,做成播客后一下就听懂了。

产生“Aha Moment”后,才会有转化冲动,愿意付费,这很重要。

量子位智库:怎么引导用户第一次接触就参与生产?

ListenHub:我们设计官网时,没像一般SaaS服务那样先做总体介绍,再让用户登录、使用,而是一开始就给用户一个输入框,让他们尝试,尽快进入生产状态。

量子位智库:过去互联网产品看重的指标,现在哪些成了虚荣指标,对AI产品参考意义不大?

ListenHub:过去互联网产品看重的“时长”指标,在AI时代不太成立。

产品核心本质是商业化,要赚钱。移动互联网时代,没有token成本,网费便宜,能靠大用户量、时长、广告赚钱,时长的本质是商业化空间大,不是最终目标。

但AI时代以完成任务为目标,用户用AI产品时,越快完成任务越好,不需要长时间停留。而且AI成本高,需要用户付费覆盖成本,要服务有付费能力的人,所以把用户完成任务付费作为指标更合理。

7、AI产品开发的参与者需要「人人都是产品经理」,AI应用的飞轮效应在于用户know-how和认知积累

量子位智库:除了衡量体系,AI产品和上一代互联网产品在开发流程、方法论上有什么变化?

ListenHub:开发流程上,我们公司和我以前待过的公司(我2009年开始工作,经历过很多公司)完全不一样,有两个主要不同点:

第一,我们至今没有传统的产品经理岗位,是“人人都是产品经理”。

我们不再使用以前那种非常完善的PRD,产品设计师兼任产品经理做设计;以前由策略产品经理完成的很多策略,现在研发也会承担一部分,比如付费系统的策略,每个人都能提想法,合理就可以做。

这对员工要求高,需要大家有产品经理思维,同时也能让大家更有创意,有表达和发挥能力的自由。

第二,AI深度融入开发。现在做策略、产品设计、开发,都会深度用AI,AI是我们重要的“员工”,每个月AI相关开销相当于一个实习生的工资。

AI能帮程序员、产品、设计提升30%~50%的效率。

量子位智库:“人人都是产品经理”,是创始人的组织特色选择,还是AI产品本身和互联网产品不同,适合全员参与?

ListenHub:和我们公司的理念有关,但也是未来趋势。

以前做ListenHub这样的产品,需要较大团队规模,而我们今年5月上线时,公司只有8个人。

整体来看,团队规模在缩小,每个人的职责范围在变宽——以前招聘需要产品交互设计师、UI设计师、多个产品经理,现在一个人就能搞定,前提是这个人能力强,且能用AI提速,没有AI的话很难实现。

量子位智库:上一代互联网产品靠飞轮效应、网络效应打造竞争优势,AI产品还有类似的通用竞争优势或护城河吗?

ListenHub:分两部分看:

第一是数据飞轮。技术侧(比如模型侧)的飞轮和标注团队相关,不是用户数据飞轮。

比如美国的Scale AI(被Meta收购),能做好标注,很多标注需要硕士、博士完成,这会提高模型上限,它的飞轮和用户使用无关。

AI应用侧的飞轮在于用户需求、用户know-how,以及我们调研播客制作论文积累的数据。这些飞轮不仅能用在ListenHub,未来我们做交互式Audio Agent,这些数据也很重要,是存在的。

第二是网络效应。今天网络效应不太成立,任何事物都有规模效应,比如品牌声量越大,规模效应越好,成本越低,但网络效应不成立。

以前内容平台是创作者和消费者的双边市场,没有消费者,创作者发内容没人看;没有创作者,消费者没内容可看。

但现在人和AI交互多,天然不依赖强网络效应,尤其是社交产品,以前人和人社交需要多人参与,现在人和AI社交,不太需要网络效应。

8、Agent大概率是创作产品的最终形态,「视频接收+音频输出」将是核心人机交互方式

量子位智库:ListenHub未来还会做一款Agent产品,您觉得AI创作领域,Agent一定是最终产品形式吗?对未来Agent矩阵有初步描绘吗?

ListenHub:Agent在创作领域大概率是最终形态:用户提需求,AI自动完成一版,用户提修改需求,AI再改进,这很可能成为范式;消费侧目前还没形成共同范式。

我们在做面向普通消费者的Voice Agent(语音智能体),认为这是重要方向,有两个核心变量:

第一个是语音交互。大家知道罗永浩做过TNT,当时太早了,现在做可能很实用;还有Plaud这类录音硬件卖得很好,年营收可能超1亿美元。

音频交互越来越重要——视频是人类接收信息最好的方式,音频是人类输出信息最好的方式,视频接收+音频输出会是接下来核心的人机交互方式。

不管是智能蓝牙耳机、智能眼镜,还是其他智能设备,都需要语音交互,所以我们下个Agent产品以语音交互为主。

做语音交互有两个挑战:一是根据用户语音识别意图,做出好的音频内容,这需要积累很多创作者数据(所以先做ListenHub积累数据飞轮);二是用户输入的自动语音识别和意图理解、分析,这部分我们正在构建,做好这两部分才能做出“音频陪伴”类的Agent。

量子位智库:今年语音交互技术(如豆包、MiniMax系列)有大进步,从整体表现和性价比看,它到全面产品化阶段了吗?还有哪些没做好的地方?

ListenHub:还有很多没做好的地方。比如豆包现在最大的PMF(产品市场契合)在儿童群体,小孩特别喜欢跟它聊天,但成年人用会觉得“太弱智”。

我最近设计新产品,想找AI聊产品发散思路,发现豆包无法跟我一起发散思考,甚至对很多产品认知错误——我让它举一些AI产品共有变量的例子,它说“ChatGPT的最大变量是优秀交互”,但ChatGPT的优秀交互根本不存在,很荒谬。

这背后的原因是,语音交互场景为了保证实时性,不能使用特别大特别慢的模型,甚至会用很多端到端模型,缺点是“智商不够”。

比如一个7B参数的多模态模型,一半空间放语音数据(语音数据本身没智能),文本数据只占一半,智能度自然低。

但很多场景需要智能,不是实时交互——用户没那么急,比如开车半小时到公司,希望这半小时听最近三大刊新闻的30分钟播客,这种场景不需要AI立刻开口,花1分钟整理内容也可以。

现在的实时交互聊天有点走偏,为了实时而实时,不一定满足所有场景。

量子位智库:语音相关场景中,哪些在半年到一年内可能成熟并实现产品化爆发?

ListenHub:只要用心做场景,挨个做好,很多场景都可以。

比如AI陪聊产品设计:我需要一个空间,和AI一起发散思维,找市面上热门AI产品,AI不停抛案例,我分享感受,一起思考,满足产品设计需求。

再比如晋升答辩辅助:把PPT放进AI,让AI扮演面试官听答辩,答辩后AI打分、提建议,再沟通改进。

现在的语音助手连输入文件都不支持,没针对这些场景做优化。

9、模型选择依赖于产品工程师的「品位」,Prompt编写和Agent设计要拉短距离

量子位智库:您提到“用世界上最好的模型和最用心的AI Agent链路”,Agent链路之前聊过,那从场景需求出发,选择模型有哪些考量指标?怎么选适合产品的好模型?

ListenHub:选择模型的结果,依赖产品工程师或产品经理的“品位”——他们得知道“好结果”是什么样的。

如果没做过好内容、没做过自媒体,就不知道什么内容好,很难教会AI;做强化学习也一样,得告诉AI“这个小说比那个好”、“这个结果比上个好”,AI才能学习。

目前AI很难取代人做评估,比如让AI判断小说好不好不成立,还是需要人评估。然后要把评估标准转化为标准化内容,建立自己的评估集,让团队对齐认知,这很重要。

同时,从产品经理到工程师,都需要提高“品位”,这也是“人人都是产品经理”的原因之一——大家的品位都在提高,都在成为“超级个体”。

量子位智库:“品位”能再展开说吗?什么是AI产品的“品位”?

ListenHub:“品位”是分场景的,比如“什么是好播客”?科技、财经、八卦故事三类场景,AI怎么讲才好?

以前的迭代逻辑是:运营评判好坏,把建议给研发,研发改Prompt、改Agent设计,但这不成立——改Prompt和Agent设计需要一个人负责,运营很难做好工程化的上下文管理,让研发做这件事更合适。

Manus团队有个好分享:把Prompt编写和上线之间的距离拉得越短越好,这就是很重要的know-how。

量子位智库:从“打工角色”到“主导AI产品、搭建高效组织”,哪些方面需要转变思路和方式?

ListenHub:最大的变化是视野。做CEO要更关注全局,很难兼顾特别细的细节,所以非常需要产品设计师帮我把控细节——一个人关注细节,一个人关注全局,这样配合最好。

以前做执行时,CEO给建议,我做细节,这方面我做得很好;但现在需要舍弃部分细节,关注战略和宏观思考,这很有挑战,是最大的转变。

10、AI产品要尽早推出,第一次亮相就须把核心链路做到最好

量子位智库:有说法“互联网时代可先推不成熟产品占先机,AI时代因底模相似、竞争差异小,首次亮相需细节足够好”,您怎么看?细节在产品不同阶段要求不同吗?

ListenHub:AI时代依然要尽早推产品,不然容易丧失先机,timing(时机)很重要。但细节要聚焦主流程,也就是“Aha Moment”所在的环节。

比如我们上线时只有主链路:用户丢任何内容进去,生成播客,没有其他功能,甚至没有付费功能——不是不想做,是研发付费功能(套餐设计、接入Stripe等)要花很多时间,不能把时间浪费在这,要先推核心功能。

一开始我们限免,也是因为没开发付费功能。但一定要先推出去,且核心链路必须有差异化——第一次亮相很重要,是用户对你的第一次品牌印象,后面再升级,用户也不会投入太多注意力。

要利用好第一次亮相的机会,把核心链路做到最好。

量子位智库:核心链路要足够惊艳用户?

ListenHub:对,或者说你自己录产品体验视频时,主流程做得好就行——用户体验产品时,也是按主流程来的。

其他功能比如“修改头像名字”、“互相关注”、“页面分享”,甚至付费功能,都没那么重要。

量子位智库:ListenHub选择亮相时机时,考虑了哪些因素?

ListenHub:主要考虑两点:

第一是越快越好,我们想今年1月亮相,但公司刚成立,需要时间准备;

第二避开大厂锋芒,比如如果今晚GPT-5发布,大家都关注,明天发产品就没用。昨天晚上我还在纠结今天要不要发,看GPT-5没发,就赶紧发了,公众号文章早晨花1小时编辑就发出去了。
(注:访谈当天早晨FlowSpeech上线)

11、创业者无法避免被大模型厂商的「覆盖」,但差异化的功能筑造用户切换成本

量子位智库:两个问题,一是如何避免未来产品被大模型厂商的能力升级吞噬?二是如果小宇宙、喜马拉雅等传统平台加AI播客功能,ListenHub怎么应对?

ListenHub:这是今年创业者常被问的问题,我的看法是:

首先,大模型厂商不是“想吞噬你”,是“顺便覆盖”,你没办法完全避免,但大模型进步没那么快——GPT-4到现在已经两年半,这期间很多公司(比如做插件的Monica)依然有很好的营收和用户量,是稳定的服务。

而且用户切换成本高,只要你是细分领域第一个做的,用户很“懒”,哪怕对方也收费,用户也不愿切换。

其次,传统平台比如小宇宙、喜马拉雅,据我所知小宇宙定位反对AI播客,喜马拉雅想做但做不出来,有技术和组织问题。

就算他们做了也没关系,我们有差异化:我们服务创作者,需要编辑功能、音色克隆等功能,他们不会做;我们还会加数字人、一键转口播等创作导向功能,会越来越专业。

我相信不会所有用户都集中在一个产品,一定有很多细分空间。

量子位智库:NotebookLM推出播客功能时曾引发关注,现在回头看,它的亮点可复刻吗?后来者有机会赶超吗?还是有壁垒?

ListenHub:真正的壁垒是“认知”,复刻功能达不到它的高度——不是技术高度,是传播高度。

传播的本质是“超出预期”,NotebookLM发布时,大家的预期是“0”,它做到了“1”,是从0到1的突破;后来者再做,是从1到1.1,很难超出预期,自然没有传播度。

创业公司一定要做“别人没做过的创新”,比如FlowSpeech没人做过,虽然是小功能,但我们是第一个做的。别人可以抄,但抄的时候要付出10倍、100倍的认知成本。

12、AI应用公司很难控制技术走向,要学会「顺势而为」

量子位智库:做好AI产品和AI初创公司,最重要的分别是什么?

ListenHub:做好AI初创公司要素很多,很难概括。

对我们来说,“以终为始”很重要,但创业公司很难完全做到——比如在上一家公司时,目标是AGI,但跟投资人说AGI,他们会觉得你在“骗钱”,只能先做商业化,赚钱养活自己,再一步步靠近目标,还要和行业进度PK。

ListenHub也一样,第一次融资时,我们想做“面向女性的情感陪伴电台”,能提供情感故事、互动共鸣,但做这个产品需要很多内容know-how、对女性的理解,以及语音交互和内容技术积累,直接做会花光钱还招不到人,所以先做了ListenHub这个中间环节。

这对我们帮助很大,5月上线到现在两个多月,团队人数翻了一倍,大部分人是看到ListenHub才加入的。创业本质像“西天取经”,先有强信念,再一步步完成里程碑,证明自己的能力。

量子位智库:ListenHub之前想做“女性情感陪伴电台”,后来转向做播客工具,怎么判断之前的方向“不work”?又怎么确定ListenHub能长期商业化?两者的判断迹象分别是什么?

ListenHub:首先,第一个方向不是“不work”,是现有资源下很难做——ListenHub其实是三步计划的第一步,技术链路和之前的方向一致,只是先落地中间环节。

当时选“女性情感陪伴电台”,基于两点:一是做海螺AI时发现,用户和AI语音交流,很多时候不是为了效率,是为了倾诉,需要共鸣和陪伴,这是横向需求;

二是疫情后大家更关注精神健康,很多情感问题在生活中无解,问ChatGPT只能得到无法执行的建议,用户需要的是共鸣、理解,以及“滋养精神”的细节。

而且国内外类似产品(比如国内的“测测”)收入很好,证明是PMF场景。我们觉得音频技术能更好解决这个需求,市场会更大。

转向ListenHub,是因为我们不做模型,AI应用公司很难控制技术走向,只能“顺势而为”。

当时有两个大趋势:一是模型能力在“深度研究”、“推理”上有提升,我们利用这个趋势做了“一句话生播客”——NotebookLM需要上传PDF才能做播客,我们只要用户给一个话题,Agent会自动找信息、做成播客。

后来豆包、腾讯都抄了这个功能,说明大家都看到了趋势。

二是海外AI产品商业化聚焦“专业创作者人群”,这类人群用AI能提高生产力、获得回报,愿意付费,商业化上成立。

量子位智库:很多AI产品想从“Early adopter(早期尝鲜者)”到“专业用户”,再通过模板或用户教育到“大众用户”。ListenHub未来的用户群体规划是这样吗?专业工具能转型大众化产品吗?

ListenHub:很有可能,以前有过类似案例。

比如设计工具Figma,上市时是专业工具,营收只有Canva(大众设计工具,运营都在用)的1/3;后来Figma加了很多大众功能(比如PPT模板),模板系统是大众最易接受的方式,越来越贴近大众。

现在AI产品(包括ChatGPT)还没“跨越鸿沟”,都在服务Early adopter和早期用户,随着技术发展,大家一起跨越鸿沟后,市场空间会非常大。

量子位智库:“随着技术发展跨越鸿沟”,是指技术性能达到某个标准吗?

ListenHub:对。举个移动互联网的例子:以前没有O2O服务(滴滴、闪送等),直到2015年后才逐渐出现,核心变量是“手机渗透率”——

国内O2O依赖红米把安卓机做到千元价位,让安卓渗透率从10%提升到90%。如果司机没有手机,O2O服务根本做不了,这是核心变量。

现在AI产品还很贵,比如我们20美金每月的套餐,成本摆在那,没办法服务大众。但人人都需要“嘴替”,比如全世界的视障群体都需要,但只有付得起钱的人能享受技术红利。需要等模型能力更强、价格更低,才能突破鸿沟。

13、AI产品第一天就该考虑收费,付费用户的留存率和活跃度更高

量子位智库:ListenHub是从第一天就收费,还是到某个节点才收费?

ListenHub:我们6月底上的收费功能,7月做了很多优化。

量子位智库:决定收费的节点,是因为用户付费意愿足够,还是功能达到收费标准?

ListenHub:收费是Day One就有的计划,AI产品第一天就该考虑收费,前提是有足够人力。

我们是因为人力不够,才把收费功能排到6月底——上线一个月内,产品需要公测保证稳定性,5月到6月我们一直在修Bug,解决各种问题,等稳定后上收费才合理。

量子位智库:说“AI产品第一天就该考虑收费”,是因为付费率是核心指标,还是模型成本有压力?

ListenHub:付费用户会给最真实的反馈,而且付费用户的留存率和活跃度更高。

量子位智库:目前ListenHub的付费转化率满意吗?

ListenHub:整体还可以。我们一半用户在国内,国内付费率普遍很低,只有千分之几、万分之几,我们的转化率远高于这个水平,比较满意。

量子位智库:复盘来看,除了产品功能硬,还有哪些做得好的点?

ListenHub:产品好坏不是靠“吹”,也不是靠花钱做营销,而是用户用了之后真觉得好——用户会对比,骗不了他们。产品本身打动用户,这是我们的最大基本盘。

量子位智库:从增长角度,ListenHub目前是自然增长,还是进入规模化投放阶段?

ListenHub:我们会做增长,但以有机增长为主。

投放不太适合网站类产品,谷歌关键词投放还可以,但应用商店买流量大概率不成立。

接下来要做的“音频陪伴Voice Agent”,更适合做投放。

14、立志成为「每个人的音频助手」,ListenHub未来要做用户音频内容的首选产品

量子位智库:3-5年内,ListenHub接近满分的最终形态是什么样?

ListenHub:我们给ListenHub的定位是“每个人的音频助手”,只要用户需要任何音频内容,我们都该是首选。

从播客开始,拓展到短内容、长内容,甚至很长的内容——我相信AI写小说的能力会越来越强,希望我们的AI能实时写小说,用户需要时就读给他听。

同时,我们要把声音模型做到业界领先,调试好声音模型,提供更多声音问题的解法。

还会做浏览器插件、API,让AI技术渗透到每个人——不仅是主流人群,还包括老人、视障人士等,他们非常依赖听觉,我们甚至会做公益合作解决他们的需求。

量子位智库:目前聚焦专业创作者,最终目标是大众普惠,更贴近日常使用?

ListenHub:对。当下社会结构和AI发展趋势下,自媒体创作者会越来越多。

本质上,自媒体从业者是“为用户打工”,老板是用户,不是传统公司架构,这个群体的增长是大趋势。未来每个人都需要表达,而且表达能获得乐趣。

比如有个做汽车营销的用户,下班还用ListenHub做汽车播客,我问他会不会觉得累,他说真的喜欢汽车,做内容不是为了赚钱,是为了获得“Connection”——和同样喜欢汽车的人建立连接,可能是朋友、工作机会、行业交流,这个价值很高。

做自媒体能让别人看到更立体的你,而不是只依赖公司品牌。

量子位智库:如果回头对刚成立时的自己说一句话,哪句话能帮助加速成长?

ListenHub:这句话不一定对当时的我有效,因为人的认知需要实际经历才能改变——以前很多人跟我说过正确的话,但我那时候听不进去,就算时光倒流,我跟当时的自己说,他也未必听。但想分享给正在创业或有想法的人:

创业是很真实的事,它的价值不是金钱回报(创业成功率低,大概率赚不到钱),而是真实满足用户需求、真实做商业化,从为世界做贡献中获得收益,以及组织一群超级个体一起做事。

这件事的意义很大,是人生中难得的宝贵经历,不是所有人都有机会创业,如果你有机会,不妨试一下。

— AI 100 双榜单提名启动 —
资讯配图

—  —

【量子位智库】原创内容,未经账号授权,禁止随意转载。

点这里👇关注我,记得标星哦~


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 音频
more
XR空间音频革命:苹果、三星推出新技术,ASAF成Vision Pro最佳搭档
免剪辑直出!AI生成多角色同框对话视频,动态路由精准绑定音频
新机:小米16音频有大升级;vivoX300、红米K90将在10月发布;Find X9Pro搭载7500mAh+80W快充
可灵击穿「多模态视频生成」,HuMo大一统“文本+图像+音频”,斩获多项SOTA!
问鼎端侧 AI 音频芯片江湖
Meta收购AI音频初创公司WaveForms​ AI
【今晚七点开播!】音频稳压器发展趋势与特瑞仕新品发布!
杜比危险了?苹果发布ASAF格式,要做自己的音频标准?
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号