
创业两年,包塔调研了数百个家庭,放弃了市场上不少人在做的AI毛绒玩具形态,他承认自己很谨慎,这源于他对硬件生意的敬畏。 |
文|王方玉
编辑|苏建勋
大模型爆发以来,围绕AI陪伴、AI教育、AI玩具等领域的创业一茬接一茬。但对于什么是合适的硬件形态、交互模态,市场还未有一个PMF的成功样板。
成立于2023年7月的创企「奇点灵智」,正试图给出自己的答案。这家公司的创始团队,由三名经验丰富的互联网老将组成:
创始人兼CEO包塔,曾担任美团副总裁、美团金融CTO,更早之前是网易有道词典的总经理;
硬件负责人徐毅斐,曾担任字节跳动“大力智能台灯”的平台产品负责人;
市场负责人胡琛,也是网易有道创始团队成员。

△奇点灵智创始人兼CEO包塔 图源:企业授权
《智能涌现》独家获悉,「奇点灵智」已于近期完成数千万元天使轮融资,由星连资本(Z基金)领投。公司的首款产品——AI英语伴学机器人定位于3-8岁学龄前儿童,目前产品已经开发完成,正处于内测阶段。
2023年9月开启AI硬件创业时,包塔对于产品的定位清晰而明确:要为学龄前儿童打造学英语的AI硬件产品。
他的判断是,目前国内低龄儿童的教育硬件市场空间很大,且竞争格局分散,AI大模型正带来一个“从功能机向智能机升级的机会”。之所以选择英语为切入口,是因为国内低龄儿童家长愿意花钱、且投入最大的,就是英语教育。
但到正式定义硬件产品时,他和团队却犯了难:AI教育和陪伴硬件有N多种形态、功能和交互方式排列组合,该如何做选择和取舍?
过往的工作经历,让包塔对待以上问题格外谨慎。在美团时,他曾在硬件上吃过一次大亏。
彼时,他作为美团金融的技术负责人参与了著名的商户线下收单之战,但过程中因为没有预期到市场需求爆发,遇到了供应链货品短缺、关键器件价格上涨的问题,这对于一个利润很薄的业务是不小的“失误”。
这次踩坑经历让包塔记忆犹新,也对于硬件产品多了一份敬畏之心:“硬件这个事儿不像软件,试错成本高,一旦产品开了模、定了型,你就不可能再撤回来了。”
因此,为了找到合适的产品形态,包塔和团队花了大量时间进行用户调研和产品测试,曾先后否定过数个产品方案。
包塔告诉我们,在公司正式成立不久,他就曾带领团队测试过目前主流AI玩具的形态,即一个毛绒玩具加一个语音对话盒子,并用全人工模拟AI,快速做了一轮测试。最后发现,小朋友很快就对这个产品失去了兴趣。
此后的多个产品创意,包括一些打样产品,「奇点灵智」内部都使用了这套方法进行验证,但这些形态最终都被一一放弃。
为了找到合适的产品形态,包塔和团队还在过去一年多走访了国内一二线城市、数百个家庭进行调研。他们把内测产品送到用户家里,让用户使用数周,最终通过口碑、留存率等指标判断产品功能的去留,以此来迭代产品。
团队最终得出结论:要让低龄儿童对AI教育产品维持长期兴趣,有三个核心条件必不可少。
一是有包括语音、视觉、触觉的多种模态,可以提供丰富的互动体验;
二是需要构建内容体系,对儿童进行内容输入和引导;
三是要有提供情绪价值的硬件形象,符合儿童的审美和喜好。
“目前市场上,已有单独针对某1-2个方面结合的产品,但我觉得只有三点都具备,才能更好抓住长期的儿童用户留存。”包塔对《智能涌现》表示。
基于此,「奇点灵智」在公司成立接近两年后,才正式确定了首款产品的最终形态——一款带屏幕、具备可爱实体形象、拥有AI多模态交互能力的桌面机器人。
对于这款产品的销量,包塔也没有预设目标,他认为只要用户真正认可产品,有实打实的用户数据和反馈,就足够支撑公司走得更远,把产品打磨到成熟和完善。
“这已经不是一个PPT拿融资的时代,而是我们先花时间去做出来,拿着有实打实的机器人和真实用户的反馈,让投资人可以更笃定的积极参与。”包塔说道。
这是从美团离开之后,包塔的第一次公开表达。以下为《智能涌现》和包塔的对话,经编辑整理:
低龄儿童的教育硬件,存在从功能机向智能机升级的机会
《智能涌现》:你之前的履历包括了有道词典和美团金融,为什么会想到做AI教育?
包塔:我毕业于清华大学计算机系人工智能专业,毕业后我先在微软亚洲研究院工作,后来和同学创立了有道。
之后在美团期间也是用大数据和AI去解决金融领域的营销效率和用户精准识别等问题,我的学业和事业一直都和与AI高度相关。
AI大模型爆发后,我觉得这是一次比搜索引擎和移动互联网更近似工业革命的重大机遇,必须要抓住,所以在23年9月开始了创业。结合对行业和市场的理解,我觉得AI应用和教育领域领域结合AI大模型会大有可为。
《智能涌现》:你看到了AI教育硬件的什么机会?
包塔:我们发现小朋友,尤其是低龄小朋友,他们其实没有特别合适的教育硬件。
现在小朋友用的比较多的电子产品,比如Pad产品,家长普遍担心沉迷和其对视力的影响,因此通常会限制孩子使用的时间。
有一部分不小的比例是各种单一功能的儿童设备,例如故事机、点读笔和思维机,它们各有其适配的场景,但也会遇到个性化学习和深度互动学习的挑战。
AI大模型出来以后,我们有机会更好地吸引儿童的注意力,并在满足他们兴趣的同时,将学习内容融入其中。所以我觉得低龄儿童的教育硬件是存在市场空白的,就像是从feature phone升级到smart phone的这样一个机会在这里。
市场规模方面,低龄儿童的兴趣教育领域,这个市场虽然没有K12阶段的应试教育那么刚需,但规模也不小,每年有小几千亿。这里面产品种类也多,竞争格局比较分散,不像是应试教育市场已经被几个巨头瓜分了。
《智能涌现》:AI大模型在填补这个空白中起到了什么作用?
包塔:我们从创业之初就特别关注AI多模态能力可以给教育硬件带来的交互上的升级。如果硬件产品能“看见”儿童、识别其动作、手中的物体以及所处的环境,并基于此主动进行交互,这样的交互更丰富、更具生命力。且输入方式不局限于屏幕点触,大大降低了交互门槛。
举例来说,家里有一个机器人在饭桌上,小朋友在吃披萨的时候被机器人看到,机器人会主动发起对话:What are you eating? 这种互动就很像是一个真的外教老师。这是我们追求的大模型技术跟多模态的交互上组合之后的一个结果。
《智能涌现》:你们的产品叫AI学伴机器人,突出了陪伴功能,你怎么理解陪伴这个概念?
包塔:陪伴这个概念对用户来说相对有点模糊,不同的人对这个东西理解不一样。
对于低龄小朋友什么是好的陪伴产品,我们觉得陪伴至少有三个不同的价值,一个是陪他玩,第二是陪他学,第三个是陪他生活,包括一些情绪上的聊天互动都算陪生活。这三个不同的价值点,不同公司关注的重点不一样。
我们对自己的要求就是做到两点,一是让小朋友喜欢玩,这是一个重要的起点;第二个是父母还认可它的价值,愿意付费。我们在大的陪伴方向上做了很多取舍,最后聚焦到以英语教育价值为主的陪伴,逐渐把它变成一个非常明确的一个切入点。
《智能涌现》:为什么选择英语教育为切入,而不是百科全书、讲故事、兴趣挖掘?
包塔:完全从用户价值去出发。
从我们的观察来看,中国的低龄儿童家长是愿意为教育花钱的,投入最大的领域就是英语教育,不论是上外教课、报各种班、买一些英语学习相关的智能硬件等。我们认为它的市场空间很大,又是一个刚需。
AI“大模型”这个简称,还原到原文实际上是LLM(Large Language Model)——大语言模型,所以天然在语言能力就很强大,比中国绝大部分家长的英语水平都好,和英语教育有非常好的适配,这在一些产品上已经得到了体现,比如成人使用的多邻国的外语老师对话功能。
《智能涌现》:陪伴和学习之间是否有些矛盾,“寓教于乐”这件事情成立吗?
包塔:我们觉得是成立的。比如小霸王学习机就是我们这代人小时候一个比较寓教于乐的产品,也卖得很好。它是过去小朋友接触信息化最好的教育设备。当下接触AGI时代最好的教育设备,仍然存在寓教于乐的机会。
抓住低龄儿童兴趣,需要三个核心条件
《智能涌现》:你们的首款产品出来了吗,是个什么形态?
包塔:我们的原型机已经出来了,目前处于密集的内测阶段,还没有到公众亮相的时刻。
它的大致产品形态是一款带屏幕的、可爱的卡通小机器人形象、拥有多模态交互能力的AI硬件,我们叫AI伴学机器人。核心功能是伴学,所以没有在产品上去设计机器狗那类自我行动功能。
《智能涌现》:你们公司成立是在2023年7月,这期间你一直在打磨产品吗?
包塔:实际上从团队组建到现在刚好2年。我们属于原来做过很大体量产品的创始团队,对于PMF有着很高的要求,同时它是一个形态和功能都很复合的产品,需要重新找PMF。
过往的创业经验,让我们很明白这是团队必须内部先通过的答卷,而不能让消费者为你的一个想法买单。
所以在产品出来之前,我们花了大量的时间进行打磨和反复论证。前面提到的一些观察和认知,都来自于我们之前做了非常多的用户调研、产品测试,做了大量的产品探索和迭代。
我们大概是在2024年底把方向收敛到了以英语教育价值为主的陪伴机器人,又用了半年多的时间做出了第一版的原型,然后开始进入到用户内测、用户反馈和共同打造这个阶段。
这里面也有一定的业内技术发展阶段的原因,如果做一个会聊天的智能音箱,可能去年就有很多同质化的产品出来了。但我们理解的完整态,需要有更好的多模态技术。直到今年年初Gemini2.0推出,整个行业的多模态能力才集体上了一个台阶。产品的体验才有了一个比较好的保障。
《智能涌现》:你们的产品定位比较复合,功能也很复合,为什么会是这样一个定位和形态?
包塔:是的,我们的产品和市场上现有的区别很大。用过我们产品的用户可能会觉得非常不同,这种差异性本质上源于我们对用户需求的理解。
我们的用户定位是3-8岁的低龄儿童,因为没有考试压力,他们有个特点是特别兴趣驱动,喜欢玩耍。做这类产品最难的部分是要抓住他们持续的兴趣。而做到这一点,我们认为有三个核心条件:
一是要有多种模态,包括视觉和动作操作,提供更丰富的互动体验。目前有些AI玩具之所以退货率高,部分是因为单一的语音交互很容易让孩子失去兴趣。因为人的整个感官系统里面,70%依赖视觉,远高于听觉、嗅觉和触觉。
二是低龄儿童需要内容输入和引导。小朋友对世界认知少,很难自己寻找话题,这就需要有大量的内容去做引导。所以我们需要构建出内容体系来,既可以持续吸引小朋友的兴趣,同时也可以更好地获得家长认可。
三是要有提供情绪价值的硬件形象。这个年龄段的孩子习惯于与实体玩具互动,他们有自己的喜好和情感连接。具有实体形象的硬件比看不见摸不着的电子屏幕里的形象,能和孩子建立伙伴关系,提供情绪价值。孩子可以带玩具小熊上床,但不可能搂着pad睡觉。
这三点我们觉得都很重要。我注意到目前市场上已有单独针对某一方面或者两个方面结合的产品,但我觉得只有三点都具备,才能更好地抓住长期的儿童用户留存。

△奇点灵智的产品定位和功能很复合 图源:企业授权
《智能涌现》:内容你们也会自己做吗?
包塔:是的。产品初期我们以自有内容为主,便于冷启动,未来会逐渐扩展到兼容更多非自有内容。
在内容体系构建上,我们运用了大量AI生成内容和大模型技术。我们用AI大模型,把小朋友最习惯和喜欢的一些场景和我们设计英语教学内容给编织到一起。以小朋友的兴趣为主要驱动,同时兼顾知识内容的补充。
《智能涌现》:在AI多模态大模型的应用方面,你们有什么样的探索和规划?
包塔:我认为多模态目前在大型模型和应用厂商中已经达成共识。它是一个在接下来一两年内将得到大量投入,并且能力进展迅速、逐步成熟的技术。
我们团队也在这方面也做了大量的工作,比如多模态识别正确率还不够高的情况下,我们会用非大模型的图像识别技术让他提高识别精度。另外根据场景需要,部分服务放在端侧,部分在云端,两者结合来实现快速反应和动态交互。
在技术路径选择之上,还有一层是产品设计的底层理念。“你是我的好用工具”和“你是我的小伙伴”,在孩子心中是很不一样的。我们期望多模态技术能够让机器人有更多主动识别和交互的机会,而不是一个相机或者一根词典笔。
让用户口碑推动产品迭代,不设销量目标
《智能涌现》:硬件创新是一件很难的事情,很多硬件都是到了第二代、第三代才成熟。你对第一代产品的反馈抱有怎样的期待?会担心失败吗?
包塔:一方面一级市场上的资金相比十年前更加理性,容错的可能性更小了;另一方面,硬件这个事儿不像软件,试错成本高,一旦产品开了模、定了型,你就不可能再撤回来。
这已经不是一个PPT拿融资的时代,而是我们先花时间去做出来,拿着有实打实的机器人和真实用户的反馈,让投资人可以更笃定的积极参与。
这次创业我们最大的挑战和收获是,硬件还没有上市、甚至还没有实物的时候,你怎么去验证你的想法是靠谱的。
过去一年多,我们想了很多前置和倒置的试验方法,在硬件没有真正完全完成之前,该怎么把这些功能、场景的组合通过模拟、软件、人工扮演等各种方式去提前得到信号和反馈。
我们过去一年走访了国内一二线城市大概数百个家庭进行调研,和用户深度接触并进行测试。我们的内测产品会被送到用户家中,真正要在用户家中使用几周时间,我们做了大量工作让用户行为直接判断产品功能的去留,通过这种方式迭代产品。
另外我们也尤其关注用户留存这一指标,要真正做好陪伴产品,这是非常核心的一点。
《智能涌现》:你对第一款产品有什么期待,比如年销售达到多少台?
包塔:用户的口碑是第一优先级。我希望第一个版本首先要做到小朋友喜欢,能够持续使用。
然后家长能够看到小朋友学习的价值,觉得花钱是物有所值,这是我们最最重要的目标。销量其实是这个过程中自然而然的结果,所以我们就没有设销量的目标。
《智能涌现》:你担心和大厂的竞争吗?
包塔:当初做有道词典的时候,我们也是一个小团队,当时在这个领域的大块头叫金山词霸。实际上我们三位创始人有连续创业的经历,也都在大厂待过足够长的时间。
大厂通常会关注较大的机会,只要市场空间足够大,他们迟早会进入。这是一个交叉了新技术、新人群的领域,没有强势品牌。
对于创业公司而言,这是一个时间窗口,拼的是看得准、做得快。创业公司需要迅速行动并在这一领域建立一些独特的优势,形成壁垒或护城河,但这些都需要在产品价值成立的基础上进一步验证。
《智能涌现》:这次创业的目标是什么?
包塔:深度参与这一波AI技术革命,希望未来能成为低龄儿童最好的陪伴机器人。
从我们自己的个人成长经历来说,我们三个创始人有一个共识,都认为快乐学习、兴趣学习是一个非常关键的事情,它是驱动人一生的长跑。一个人想有所成就,做一些大事儿,还是需要follow自己的兴趣。
所以我们共同的理念是把孩子的快乐和成长放在首位,我们不希望做一个小朋友最后不愿意用,被父母逼着用的硬件产品。我们小时候做不到,现在可以为小朋友来做。
封面来源|视觉中国


