
在大模型全面进入协作与工具化时代,软硬件结合的价值正在被重新定义。硬件不应只是配件,而是大模型交互的重要入口。那么,如何将 AI 嵌入进真实世界当中,并为用户提供真正具备有价值的服务?
近日 InfoQ《极客有约》X AICon 直播栏目特别邀请了拂曦科技 CEO 段然担任主持人,和 Plaud 中国区 CEO 莫子皓、Rokid 全球开发生态负责人赵维奇一起,在 AICon 全球人工智能开发与应用大会 2025 深圳站 即将召开之际,共同探讨 AI 硬件进阶的底层逻辑与破局之道。
部分精彩观点如下:
未来的 AI 硬件,一定是在传统硬件无法胜任的场景中脱颖而出,而软硬件一体化正是实现这一点的关键。
软硬一体的优势在于,硬件只是提供了使用智能的资格,智能的高低差异才是关键。最终的核心竞争力是在于如何在场景中高效获取上下文,并且把智能做到极致。
优秀的产品能够吸引世界级的顶尖人才,这样才能做出真正具有竞争力的产品。如果我们真心相信 AGI 和大模型,我们就要追求做伟大的事情,而不是重复过去的错误。
查看大会日程解锁更多精彩内容:
https://aicon.infoq.cn/2025/shenzhen/schedule
以下内容基于直播速记整理,经 InfoQ 删减。
莫子皓:首先是因为起步得早。在这个产品之前,我们还做过一个产品,是通过众筹启动的,而且从最初阶段就实现了盈利。那个时候大模型还没有火起来,GPT-4 也尚未发布,我们在开发过程中几乎没有使用太多大模型相关的技术,这个早期的产品推动了公司初步的生产能力建设和用户渠道积累。
之后,当大模型技术兴起时,我们迅速抓住了这一波流量和技术红利,推出了 NOTE 产品。当时 iPhone 无法录音成了一个宣传点,虽然这个痛点并非关键,但配合大模型的加入,确实带来了初期的用户增长。后续无论是团队扩张、渠道拓展还是功能完善,我们都投入了大量精力去建设。时机把握得早和前瞻性的大量投入,构成了成功的关键。
莫子皓:最主要的原因是我们早在七八年前就洞察到这个产品背后确实存在真实需求,并不是凭空想象用户需要什么再去开发产品。另外一点是,海外用户非常重视设计感。所以,当我们将已知的刚性需求与出色的设计相结合,这就成为我们众筹成功的核心原因。
赵维奇:其实销量本身并不能完全代表什么,它更多是一个偶然和必然交织的结果。必然性在于产品力的积累,如果一个公司在产品打磨上的功夫足够深,总有一天它的价值会被用户看到并传播出去。Rokid 已经走过十年,我们原本就关注多模态的核心应用。
早期团队更偏向于做云端和软件侧的 AI,在手机端或硬件端的应用还不多。而我们这几年也在空间计算方面进行了大量投入,在海内外市场都获得了不错的反馈。尽管消费者对 AI 的理解还不深入,但我们的用户基础已经在那里了。
AI 的加入让更多人开始了解我们的产品和品牌。只要产品力过硬,或者具备独特性,自然会被市场认可。去年开始,几乎所有硬件厂商都在寻找将 AI 嵌入产品的方式,无论是耳机还是玩具。
早切入是一个优势,另一个关键在于产品是否能真正解决“Always On”式的办公需求,比如我们的眼镜可以持续收集语音输入,结合 AI 快速给出高质量结果,节省大量人力和专家经验成本。
我们的硬件演进路线一直聚焦于“轻量化”,更轻巧,能够覆盖更多用户,包括儿童、注重妆容的女性、老人等,这就决定了它的普适性。XR 行业其实已经发展超过十年了,过去几年一直在沉淀。
如今随着用户认知提升,以及 Meta、Apple 等企业对元宇宙和 XR 的推广,行业基础已经打牢。Rokid 作为国内最优秀的 AI 硬件企业之一,也因此获得了更多用户认可。加上 AI 技术的赋能以及产品本身的竞争力,我们才有了现在的成果。
赵维奇:智能硬件的解决方案有很多,严格来说,它并没有不可逾越的技术壁垒。做到“60 分”其实并不难,尤其是在中国,强大的供应链、生产线、试水市场和电商渠道都很成熟。但要做到“80 分”以上,真正形成强有力的产品力,就需要经过市场的反复筛选。
从行业的角度看,我们欢迎更多玩家加入这个生态,特别像 AR 眼镜这种高度个性化的设备,用户在外形、功能上的需求差异很大,因此市场空间也非常广阔。越多样,生态越健康。
莫子皓:对于大模型来说,最核心的是获取上下文信息。我们所做的事情,正是在不同场景下获取用户的离线上下文。无论是台式机、笔记本,还是手机,它们最初的设计并不是为了捕捉用户的离线行为数据,因此硬要用这些设备来完成这类任务会显得很别扭。因此,我认为必须有新的硬件形态来承载这一功能。
Rokid 选择用眼镜实现“Always On”的图像采集,我们则选择通过录音的方式切入。虽然路径不同,但我认为这两种方式都是正确的。只有通过一个硬件入口,收集更多上下文信息,软件层才能做出差异化,最终在用户体验上形成独特价值。这一切又高度依赖数据。
例如我们在收音距离、声纹、ASR 等环节的技术能力,Rokid 则涉及空间计算、图像识别等。只要其中某个环节粗糙了哪怕 1%,最后传递到软件的效果就会大打折扣。
另一个话题是如何与大厂竞争。坦率地说,我们之所以有机会,是因为大厂根本看不上我们做的事情。做硬件又苦又累,利润率又低,大厂没兴趣。他们顶多派一个 P9、P10 级别的人来试试,但这样的配置是做不了这件事的。所以说,大厂不愿意下场本身,反而成了我们的护城河。
赵维奇:软硬一体化在 AI 硬件中的核心价值,与传统软件公司的逻辑完全不同。AI 的落地必须通过完整、流畅的体验闭环来实现。
这需要团队具备极其全面的能力,不是靠一个高级别的人、两个产品经理就能完成的。这是一个完整的开发链路,要构建数据飞轮、体验飞轮,把每一个环节都打通。
以我更熟悉的眼镜为例,它涉及芯片、传感器、摄像头、功耗管理策略、光学方案、续航、散热、材料等等,每一个细节都非常复杂。这不仅需要供应链支持,更需要团队之间目标高度一致,紧密协作。只有这样,才能真正把 AI 的落地做深、做透。
其次,我们会极致优化性能和体验,不依附于任何一个大厂或生态,而是尽可能开放地使用市场上最优秀的服务。比如在多模态能力方面,每家厂商的强项不一样。我们有灵活的集成能力,也有选择权,只要是对用户体验有利的技术,我们都会采用。我们做的是面向用户的产品,而不是服务于哪个品牌。
只要用户认可我们的产品和体验,愿意为此买单,我们的使命就达成了。我们在全球不同市场部署产品,必然会与当地最优秀的 AI 服务商合作。在这种情况下,大厂的灵活性往往不如我们,这也决定了我们的生态位。我们应该做深入场景的专业产品,而大厂则更适合做大规模、通用型的平台能力。
关于如何与其他玩家竞争的问题,我认为最核心的价值在于:你是否创造出了“不可替代”的用户价值。我们的确遇到过一些非常认真的用户或者行业伙伴,他们会把市场上所有的 AI 眼镜,甚至录音类 AI 硬件全都买回来进行对比测试。
也许在第一代产品上,差异并不明显,但到了第二代、第三代,差距就会逐渐显现出来。因为一家专注做某个领域的公司,与那些仅“顺便”涉猎这个行业的公司,最终呈现出来的体验和打磨程度是完全不同的。
当然,我们非常欢迎更多玩家进入这个赛道。参与者越多,用户选择越丰富,市场竞争也会促使产品在价格、体验、垂直度等方面不断优化。
类似于过去的 XR 行业,有人专做泳镜、有人专做滑雪镜,都是垂类硬件,拥有明确的用户群体。这类公司通常都能把产品价值精准传递给用户,生态位不同,不存在硬碰硬的对抗关系。
我个人对“软硬一体”的理解也来自一些很直观的探索。例如,在现实中,无论是线下会议还是面对面的约会场景,当你对面坐着一个人,你却拿出手机录音或者戴着耳机,都会显得不礼貌。
但如果你使用一款眼镜形态的 AI 硬件,它自然地融入空间,既不打扰别人,又可以在不显眼的方式下提供情绪识别、语义理解等 AI 能力,这就实现了 AI 真正落地的价值。
Plaud 的录音产品之所以在法律、医疗等专业领域获得成功,就是因为准确击中了这些人群在工作中的强需求。我相信未来的 AI 硬件,特别是 AI 原生硬件,一定是在传统硬件无法胜任的场景中脱颖而出,而软硬件一体化正是实现这一点的关键。
软件创业已经卷到极致。每天都在涌现出几十家新的 AI 应用公司,同时也有大批倒闭。情感陪伴、虚拟人、AI 编码、Web 交互,各种垂类 AI 创业项目层出不穷,竞争激烈。但当你结合硬件时,首先构建了更高的壁垒,其次你自然避开了和大厂在软件端的正面竞争。
我们也经常遇到大厂的 P9、P10 高级岗位人员来“指导”我们。他们通常不做一线事,只在战略层面制定方向。
比如某大厂领导白天看过我们的内容,晚上 10 点通知团队,第二天早上晨会前就要出一个新方案,这种指挥方式确实很难深入理解用户真实的痛点。
大厂的高管们已经远离一线太久,缺乏对用户需求的敏感度。他们更擅长资源调配、顶层设计,而非真正理解草根用户的真实使用场景。
我们在做 AI 硬件创新时,必须贴近年轻用户、场景化用户,抓住他们明确的痛点问题。这正是创业公司的优势所在——高度的同理心、专注力和灵活的战略调整能力。说白了,就是“能转弯、跑得快”,才能真正抓住时代的红利。
赵维奇:多模态信息的输入,对计算资源提出了很高的要求。当前我们更关注的是上下文的理解。一句话本身的语义,NLP 和 ASR 早已能够很好地识别和转写,但问题是,这句话在特定场景中到底意味着什么?多模态的核心正是在于对意图的理解。
AI 的最终能力是将人的意图转化为有效结果,而通过多模态信息的融合,加上 AI 算法、大模型以及底层芯片的优化,我们能更准确理解用户的上下文,并给出更有价值的反馈。
从硬件层面来说,不同设备的差距非常大,包括元器件选择、内存调用策略、芯片功耗策略等。例如,有的系统会用高功耗芯片先处理,再通过低功耗芯片维持运行,整个结构就像一个“团队”,每个“成员”处理不同维度的信息。这种架构下,视觉、声学等不同模态的信息处理方式也完全不同。
举个例子,Rokid 之前做过智能音箱,大家知道音箱一般会配备 4 到 5 个麦克风,是为了实现定向拾音。而这项技术在眼镜上也可以复用,甚至挑战更大。因为眼镜是佩戴在头部,它不仅要拾取外部声音,还要区分说话者和听话者。我们需要处理“谁在说话”以及“声音从哪个方向来”的问题。
传统方法是用一个麦克风收全场音,再通过算法区分声音源。但现在更有效的做法,是在硬件上预设多个指向性的麦克风,比如朝前、朝下,分别用于拾取对方声音和佩戴者自身的声音。这样可以在源头上把不同声源拆分,为后续的多模态处理打下基础。
此外,视觉模态也非常重要。我们在 AR 产品中做过 SLAM(即时定位与地图构建)与六自由度处理,需要通过摄像头收集场景信息。麦克风在这个场景中只是众多传感器之一。
举个例子,当用户在博物馆问“这是什么?”系统需要融合图像、声音与位置信息,才能判断你是在问展品,而不是家里客厅的摆设。这就是上下文的意义——它让 AI 知道你“在什么场景下说了这句话”。
目前,许多中大型公司都在开发多模态融合算法和解决方案。其中一个挑战就是实时性。因为处理多模态数据本身就需要大量计算资源,还要保证足够快的响应时间。因此,我们不得不考虑端云协同的问题:到底是在眼镜端处理?手机或手表端?还是云端?这些都有极高的技术挑战。
总的来说,最大的难点就是如何在一个如此小巧的硬件上,融合多模态信息,并在当前场景下快速准确地给出回应。归根结底,就是要让 AI 真正“懂你”。否则,它只是一个没有智能的硬件而已。
莫子皓:关键在于,如何将不同模态的信息有效地融合进一个长上下文中,这在工程实现上是非常复杂的。打个比方,以前的产品只是录音,现在我们新增了比如拍照功能,用户在对话过程中拍了一张图像,那我们就需要通过大模型理解这张图片的含义,并判断它应该插入到对话的哪个部分,进而影响整个总结结果。这在大模型的工程和算法层面都会带来很大的挑战,远远不只是“把图片塞进去”这么简单。
多模态确实是一大技术难点,我们曾探讨过几个方向:一是如何将音频数据进行连续性嵌入,提取时间特征和语义特征,进而捕捉关键事件与时间的关系;二是围绕编解码的技术架构;三是跨模态的索引与检索,也就是如何将视频、图像、文本和嵌入式信息融合成可被查询的输入,以提升搜索精度。
赵维奇:Rokid 最新一代眼镜新增了一个“支付”功能:用户只需看一眼二维码并说出支付指令,系统就会通过摄像头识别二维码,再结合语音确认完成支付。这就是图像 + 语音两个模态的结合。而背后还有一个关键技术——声纹识别,确保只有用户本人才能完成支付。
这也引出了另一个核心问题:安全性。当上下文数据越来越丰富时,系统能推断出你的位置、行为,甚至生活细节。
因此,保护用户隐私与数据安全就变得尤为重要。比如在支付场景中,必须通过声纹确认才能放行,这就是将多模态交互与安全性结合的典型应用。所以多模态并不是噱头,它的核心价值在于解决真实问题——如何在当下场景中高效、丝滑地完成任务。
赵维奇:另外,随着可穿戴设备和脑机接口的发展,情感和生物信号输入也逐渐成为多模态数据的一个重要来源。
莫子皓:比如在谈恋爱时,突然拿出手机看会很尴尬;在销售和看病时,如果对方发现你在录音,会觉得很不舒服,这本质上是一个羞耻心的问题。对于硬件来说,录音并不一定有用。
软硬一体的优势在于,硬件只是提供了使用智能的资格,智能的高低差异才是关键。最终的核心竞争力是在于如何在场景中高效获取上下文,并且把智能做到极致。和过去只买硬件的时代不同,今天更重要的是如何通过软硬一体的结合,提升场景中的智能处理能力。
莫子皓:我们从不认为我们做的是录音笔,这只是产品形态之一,我们实际上是获取用户离线的上下文信息。最终竞争力在软件端,硬件只是提供智能的使用资格。大模型的优势并不仅仅是速度,更多的是在于如何利用大模型处理实际应用场景,大模型时代的核心壁垒始终是深度的场景洞察和精细化的软件产品。
从一开始,我们就把隐私和用户权限做到最好。目前,我们的产品已经通过了多项隐私认证,我们的端到端加密技术确保了用户数据的安全。只有通过特殊的通信协议和密钥,才能解密通话内容和音频文件的输出。而且我们允许用户选择不上云,这样可以更好地保护数据安全。
赵维奇:对于可穿戴设备,最核心的挑战在于取舍。可穿戴设备可以分为几个部分:一个是感知能力,这依赖于传感器和摄像头。第二部分是理解,这需要 AI 和强大的算力支撑。第三部分是展现和交互,如何让内容在设备上展现出来,并确保用户能够理解和接受。
我们的目标是通过这些传感器获取周围环境的数据,然后让 AI 在硬件上处理这些数据,以此提供对当前场景的理解。举个例子,我们的眼镜中有 NPU(神经网络处理单元),它可以协助进行物体识别和人脸识别,减轻 CPU 负担。硬件和软件的取舍在于如何选择适合的操作系统和芯片,这些决策会直接影响产品的性能和用户体验。
人类需要通过一定的反馈来了解设备的反应,比如在手机上的通知、手表上的文字提示。不同的展现形式适用于不同的用户群体,尤其是对于小孩或老年人,设备的展现方式需要易于理解和使用,而不是让他们感到困惑。我们希望通过直观、友好的界面,帮助用户完成任务,降低使用成本。
AR 设备的交互方式是另一个挑战。设备能否理解用户的意图并作出响应?例如,语音助手不仅能回答用户的问题,还能进行上下文理解。如果设备能记住前后问题的关联,能够继续深入对话,那么就能大大提升用户体验。对于可穿戴设备来说,如何让用户在体验中感到自然和不负担,是我们不断优化的目标。
我们的产品策略是做出多种形态的设备,并根据不同用户群体的需求来做取舍。我们不仅做轻量化的、带屏的设备,还考虑如何让这些设备的续航能力更强,保持全天候使用。这些取舍的背后,是为了能够适应更广泛的用户需求,并确保产品能在市场上获得验证。
赵维奇:过去,硬件发展的方向有两个,一个是“加 AI”,另一个是“AI 加”。有些公司尝试做 AI 驱动的产品,从一开始就以 AI 为核心,但这些产品的市场接受度不足,软硬件的集成度也不够成熟。因此,AI 作为硬件的补充,像智能耳机和智能眼镜的出现,或许才是一个更为合理的发展方向。最终,我们可能会看到 AI 眼镜作为 AR 眼镜的一种发展,但不是每一款 AI 眼镜都会向 AR 眼镜发展。
我们需要耐心,因为任何可穿戴设备在初期都会面临市场的试探阶段。就像华为和 Bose 等品牌在音频产品上的发展一样,销售量初期可能较小,但只要方向正确,慢慢发展就能获得市场份额。我们也要让更多人使用这类设备,首先要让他们知道它有用,其次要让他们尝试,将其作为生活中的一部分,譬如像戴墨镜一样自然。
赵维奇:大厂入场说明市场看好这个方向。方向正确,但不意味着短期内就会爆发。比如 Meta 通过不断更新 Ribbon 产品的外观来吸引更多用户,虽然产品本身很强大,但市场推广的策略也很重要。现在的市场只是刚开始阶段,任何品类的初期销量都可能在百万级别。对于 3C 产品来说,百万台的销量其实是相对较小的,因此,我们要耐心等待,先让更多人知道这个产品的存在,并尝试使用。
目前的进展是让人非常兴奋的,因为我们已经让一些用户开始试用这种设备。尤其是在高频场景和刚需场景下,像翻译和语音识别功能,就能帮助用户在日常生活中轻松使用这类设备。
除了这些基本功能,我们还需要更多的合作伙伴参与进来,扩展多模态的生态链。正如手机 App 的爆发初期,iPhone 刚出来时只有少数应用,而后来大量开发者的涌入,带来了丰富的应用场景。我们也希望更多人看到多模态的潜力,吸引开发者和用户一起探索这个领域。
每个厂商的眼镜都有不同的设计风格,我们也一样,外观和功能都可以根据不同用户的喜好进行调整。
当前阶段,我们需要教育市场,让更多人愿意尝试这些新产品。就像降噪耳机刚推出时,只有少数人使用,而如今几乎所有人都在使用。我们不必过于担心市场的变化,只要保持耐心,继续推进,最终会迎来更大的市场认同。
观众:眼镜会是智能穿戴的最终形态吗?
莫子皓:其实做 AI 应用并不一定要依赖大量用户数据。很多创业公司没有数据也能做应用。大模型训练和应用构建是两个概念,很多时候我们把这两者混淆了。我们确实没有用户的数据进行调整,但我们会利用合成数据等方式来进行训练。
莫子皓:我认为大模型最吸引人的地方是它带来的商业模式。以前没有哪个产品会越用需要花的钱越多,而大模型正好符合这一点。就像玩游戏,越玩越好,最终得付费。这种商业模式非常可持续,也是全球最好的商业模式。
赵维奇:商业的难点在于如何让用户认识到自己的痛点,并持续提供价值。很多产品难以实现持续性,因为没有找到这种连接。然而,AI 技术带来了改变。AI 的加入使得产品体验可以不断优化,用户愿意为持续的好体验付费。但问题是,普通用户面对复杂的技术门槛时,很难接受并使用这种功能。
每个硬件设备都要找到自己的定位,明确要解决用户的什么问题。以我们公司的 AR 产品为例,博物馆里,我们希望用户能看到更多内容,而不是依赖导览员。AR 技术能够提供更多样化的内容,因此用户愿意使用它。对于 ToC 市场,我们的 AR 眼镜,特别是用于观影、作为随身屏,满足了用户的大屏需求。
在这个基础上,我们可以提供更多的服务,如连接 Steam Deck、Switch 等设备,或与合作伙伴如爱奇艺、钉钉定制化合作,满足用户多样化的需求。举例来说,观看影片时,AR 眼镜能展示剧情介绍或演员表。
此外,我们也支持 3D 模式,让用户享受影院级的观影体验。从眼镜端来看,翻译和字幕等功能是刚需,但相比传统的 APP,眼镜能够提供更丝滑、更无缝的体验。
智能眼镜的最终形态将是更轻便、无感的存在,它将成为日常生活中的基础设施。硬件产品过硬,用户会自然产生高频使用,进而提升活跃度。用户的需求转化为实际体验,并且通过口碑传播,精准的消费者群体自然而然地形成。如果产品足够好,它会通过口碑传播,帮助扩展用户群体。
赵维奇:AI 硬件最大的挑战之一是让用户信任产品。用户将大量数据交给我们,这种信任的建立非常困难。如果没有长远的规划,短期内可能会破坏整个行业的信任度。尤其是 AI 硬件行业,数据的沉积越多,产品的智能化程度就越高,但前提是用户愿意持续使用。因此,提供真正有价值的产品、做好长期的规划非常重要。
对于在座的创业者和开发者来说,我的建议是:不要做烂产品。中国的供应链非常强大,模仿别人做类似的产品是很容易的,但真正有价值的创新才是关键。
优秀的产品能够吸引世界级的顶尖人才,这样才能做出真正具有竞争力的产品。如果我们真心相信 AGI 和大模型,我们就要追求做伟大的事情,而不是重复过去的错误。我们需要以全球竞争为目标,而不是仅仅满足于做一个像样的模仿品。
莫子皓:只有真正的创新和原创才会让一个公司具备持续竞争力。中国的科技企业也应该以更加创新的思维来推动产业发展,避免回到内卷的死胡同。
莫子皓:我们的 AI 团队和硬件团队都非常顶级,有足够的能力和资源进行创新。另外,我们的市场定位是全球市场,而这恰好也是中国大厂无法轻易复制的地方。虽然中国的大厂在国内市场很强大,但在全球市场中,它们面临的挑战是巨大的。比如,在日本,我们的产品能够根据当地的需求进行本地化,而这正是中国大厂所缺乏的。
因此,虽然我们的产品可能在国内市场并不如一些大厂产品那么引人注目,但在全球范围内,我们的产品已经过了一个可以被轻易复制的阶段。我们注重本地化、数据隐私和用户体验,这些都使得我们的产品在全球市场中具有强大的竞争力。对于长文本处理,我们有独特的技术优势,能够更好地利用 2.5 Plaud 在长文本处理上的能力。
莫子皓:实际上,PMF(产品市场契合度)是否达成,会影响用户的支付意愿。在大模型时代,如果产品达到了 PMF,用户使用得越多,你的收入就越高。因此,最贵的体验往往也是最好的。
如果没有达成 PMF,用户的体验就可能不尽如人意,甚至会亏损。对于像我们这样的公司,能承受更高的成本是因为我们已经找到了真正的市场契合。我们的技术和产品得到了全面优化,就像已经进入了一个“贴身服务”的阶段
首届 AICon 全球人工智能开发与应用大会(深圳站)将于 8 月 22-23 日正式举行!本次大会以 “探索 AI 应用边界” 为主题,聚焦 Agent、多模态、AI 产品设计等热门方向,围绕企业如何通过大模型降低成本、提升经营效率的实际应用案例,邀请来自头部企业、大厂以及明星创业公司的专家,带来一线的大模型实践经验和前沿洞察。一起探索 AI 应用的更多可能,发掘 AI 驱动业务增长的新路径!

今日荐文
编程“学废”了?普渡毕业却只获烤肉店面试!美国IT失业创新高:AI面试成最大屈辱,网友怒称宁愿失业!
英伟达“继承战”来了?黄仁勋子女入局;宇树王兴兴:我们啥都没有时客户就愿直接给钱;GPT-5 滑铁卢,奥特曼被要求下台|AI周报
半年研发、1周上线,1秒200行代码爆发?美团研发负责人:靠小团队奇袭,模型和工程能力突破是核心

你也「在看」吗?👇