【科技24时区】在卡塔尔多哈举行的Web Summit大会上,AI语音独角兽ElevenLabs联合创始人兼首席执行官马蒂·斯塔尼谢夫斯基(Mati Staniszewski)表示,语音正成为人工智能的下一代主要交互界面——随着大模型逐步超越文本与屏幕,人类与机器的互动方式将日益依赖语音。
斯塔尼谢夫斯基向媒体指出,ElevenLabs所开发的语音模型已不再局限于简单模仿人类说话,而是能够融合情感、语调等表达要素,并与大型语言模型的推理能力协同工作。他认为,这一技术演进正在重塑人与技术的交互逻辑。他展望未来称:“希望我们的手机都能放回口袋,人们可以沉浸于真实世界,而语音将成为操控技术的核心机制。”
这一愿景正是ElevenLabs本周完成5亿美元融资、估值跃升至110亿美元的重要驱动力。值得注意的是,该战略方向已在AI行业形成广泛共识。OpenAI与谷歌均已将语音作为其下一代模型的核心焦点,而苹果则通过收购Q.ai等举措,悄然布局“始终在线”的语音相关技术。
随着AI加速渗透至可穿戴设备、智能汽车等新型硬件载体,用户对设备的控制正从“点击屏幕”转向“自然说话”,语音由此成为AI下一阶段发展的关键战场。Iconiq Capital普通合伙人赛斯·皮埃尔庞(Seth Pierrepont)在同一场峰会上呼应了这一观点。他指出,尽管屏幕在游戏与娱乐领域仍将重要,但键盘等传统输入方式已显“过时”。随着AI系统日益具备“智能体”(agentic)特征,人机交互本身也将发生根本性变化——模型将内置更多护栏机制、系统集成能力与上下文理解力,从而减少对用户明确指令的依赖。
斯塔尼谢夫斯基特别强调,“智能体化”是当前最重大的变革之一。未来的语音系统将不再要求用户逐条下达指令,而是依托长期积累的持久记忆与情境感知,使交互更加自然流畅,大幅降低用户操作负担。
他进一步指出,这一演进将深刻影响语音模型的部署方式。目前高质量语音模型主要运行于云端,但ElevenLabs正致力于构建“云+端”混合架构,以支持耳机等可穿戴设备——在这些场景中,语音不再是用户主动触发的功能,而是如影随形的“常驻伴侣”。
据悉,ElevenLabs已与Meta展开合作,将其语音技术整合进Instagram及虚拟现实平台Horizon Worlds。斯塔尼谢夫斯基还表示,公司对与Meta在其Ray-Ban智能眼镜上合作持开放态度,以推动语音交互在更多新形态设备中的落地。
然而,随着语音技术日益深度嵌入日常硬件,隐私、监控及数据存储等问题也引发广泛关注。当语音系统更贴近用户生活,其所收集的个人数据规模与敏感度将显著提升。此前,谷歌等科技巨头已被指控滥用此类数据,这为整个行业敲响了警钟。如何在技术创新与用户权益之间取得平衡,将成为语音AI能否可持续发展的关键命题。
ElevenLabs CEO:语音将成为AI下一代核心交互界面,推动人机交互范式变革
科技区角
2026-02-06 00:01
声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。