ElevenLabs CEO：语音将成为AI下一代核心交互界面，推动人机交互范式变革

【科技24时区】在卡塔尔多哈举行的Web Summit大会上，AI语音独角兽ElevenLabs联合创始人兼首席执行官马蒂·斯塔尼谢夫斯基（Mati Staniszewski）表示，语音正成为人工智能的下一代主要交互界面——随着大模型逐步超越文本与屏幕，人类与机器的互动方式将日益依赖语音。

斯塔尼谢夫斯基向媒体指出，ElevenLabs所开发的语音模型已不再局限于简单模仿人类说话，而是能够融合情感、语调等表达要素，并与大型语言模型的推理能力协同工作。他认为，这一技术演进正在重塑人与技术的交互逻辑。他展望未来称：“希望我们的手机都能放回口袋，人们可以沉浸于真实世界，而语音将成为操控技术的核心机制。”

这一愿景正是ElevenLabs本周完成5亿美元融资、估值跃升至110亿美元的重要驱动力。值得注意的是，该战略方向已在AI行业形成广泛共识。OpenAI与谷歌均已将语音作为其下一代模型的核心焦点，而苹果则通过收购Q.ai等举措，悄然布局“始终在线”的语音相关技术。

随着AI加速渗透至可穿戴设备、智能汽车等新型硬件载体，用户对设备的控制正从“点击屏幕”转向“自然说话”，语音由此成为AI下一阶段发展的关键战场。Iconiq Capital普通合伙人赛斯·皮埃尔庞（Seth Pierrepont）在同一场峰会上呼应了这一观点。他指出，尽管屏幕在游戏与娱乐领域仍将重要，但键盘等传统输入方式已显“过时”。随着AI系统日益具备“智能体”（agentic）特征，人机交互本身也将发生根本性变化——模型将内置更多护栏机制、系统集成能力与上下文理解力，从而减少对用户明确指令的依赖。

斯塔尼谢夫斯基特别强调，“智能体化”是当前最重大的变革之一。未来的语音系统将不再要求用户逐条下达指令，而是依托长期积累的持久记忆与情境感知，使交互更加自然流畅，大幅降低用户操作负担。

他进一步指出，这一演进将深刻影响语音模型的部署方式。目前高质量语音模型主要运行于云端，但ElevenLabs正致力于构建“云+端”混合架构，以支持耳机等可穿戴设备——在这些场景中，语音不再是用户主动触发的功能，而是如影随形的“常驻伴侣”。

据悉，ElevenLabs已与Meta展开合作，将其语音技术整合进Instagram及虚拟现实平台Horizon Worlds。斯塔尼谢夫斯基还表示，公司对与Meta在其Ray-Ban智能眼镜上合作持开放态度，以推动语音交互在更多新形态设备中的落地。

然而，随着语音技术日益深度嵌入日常硬件，隐私、监控及数据存储等问题也引发广泛关注。当语音系统更贴近用户生活，其所收集的个人数据规模与敏感度将显著提升。此前，谷歌等科技巨头已被指控滥用此类数据，这为整个行业敲响了警钟。如何在技术创新与用户权益之间取得平衡，将成为语音AI能否可持续发展的关键命题。