办公室里对着 AI 说话的人，可能会比用键盘打字的人更早下班

去年这个时候，如果你在办公室，原地突然就开始对着电脑说话，一次两次会被人以为是在打电话，三番五次就不禁让人怀疑——工作压力是不是太大了，都开始自言自语了？

但到了今年，可能就是用语音解放双手了。越来越多的员工选择对着屏幕口述，而不是敲键盘。不管是写代码、写方案，还是跟 AI 交流，用说的，开始变得越来越方便。

从「对话」到「操作」

3 月 3 日，Anthropic 向约 5% 的用户推送了 Claude Code 的语音模式。操作极简：在终端输入 `/voice`，按住空格键说话，松手即执行，转录 token 完全免费。

语音转文字，早就不是什么新鲜事儿了，但是，Claude Code 不是一个聊天应用——它是一个 AI 编程工具，年化收入在今年 2 月已突破 25 亿美元，两个月内翻倍。

当一个以「写代码」为核心场景的产品开始支持语音输入，它传递的信号是：语音不再是一个「更方便」的选项，而是被严肃对待的生产能力。

Bloomberg 也发现了这个现象，并且走访了纽约销售平台 Clay 的教育负责人 Yash Tekriwal 说，他用语音输入的速度是每分钟 205 个词，打字只有 110 到 120 个。更关键的是，他发现口述的 prompt 质量更高。

打字时工程师会写「fix bug」，但说话时会自然地给出更长、更具体的上下文描述。转录创业公司 Wispr 的 CEO Tanay Kothari 把这总结为：「打字时，你的 prompt 就是垃圾。」

200 毫秒，技术的拐点

语音作为生产工具之所以出现已久，却现在才真正可用，背后有一个关键的技术阈值被突破：端到端延迟降到了 200 毫秒以内。

一条完整的语音 AI 链路需要三步——语音转文字（STT）、大语言模型处理（LLM）、文字转语音（TTS）。一年前，这条链路的总延迟在 500 到 800 毫秒，用户能明显感觉到「卡顿」。今年 3 月的多项基准测试确认，这个数字已经被压缩到 200 到 250 毫秒。最典型的是 Deepgram Aura-2（TTS），首字节延迟 90–200ms，支持 7 种语言。

200 毫秒是一个什么概念？人类面对面对话中，轮换间隔的中位数大约在 200 到 300 毫秒。这就意味着，AI 语音交互的响应速度已经达到了人类对话的自然节奏。这意味着用户不再需要「等待」AI 回应——对话可以像和真人说话一样流畅地进行。

风水轮流转

曾几何时，语音也是互联网的宠儿。

2011 年，微信上线。它在早期与米聊、飞信的竞争中冒头，一个被反复提及的差异化功能就是语音消息。在智能手机刚刚普及、大量用户尚不熟悉触屏打字的年代，按住说话、松手发送的交互方式几乎是零门槛、直觉性的。

语音消息帮微信在市场打开了缺口，但辉煌并没有持续。随着用户习惯成熟，语音消息逐渐变成了一个被「忍受」多于「喜爱」的功能：60 秒的语音条需要慢慢收听、无法快速浏览、在公共场合不方便播放，还得手忙脚乱地调音量。

微信自己也意识到了这个问题——它先后上线了语音转文字、语音消息进度条拖拽、倍速播放等一系列补救功能，本质上是在承认，纯语音的信息密度和使用效率，在很多场景下不如文字。

语音的用户心智一度跌入低谷。在社交中，发语音甚至成了一种带有压迫感的行为，观感很不好。

然而风水轮流转，AI 的介入让语音的价值结构发生了根本性的变化。过去，语音消息的问题在于：说的人省事了，但听的人要花更多时间去解码——信息的负担从发送方转移到了接收方。而现在，AI 充当了中间层：你对着 AI 说话，AI 把你的语音转化为结构化的文字、代码、指令。语音的「输入快」优势被保留了，而「输出乱」的劣势被 AI 吸收了。

这也是 Typeless 这样的产品正在验证的逻辑。它们不是在做「语音消息 2.0」，而是让语音回归为一种输入方式——你说话，但对方看到的是整理好的文字。语音不再是一个需要被「忍受」的沟通格式，而是一个被 AI 翻译过的高效输入通道。

从微信语音消息到 Wispr、Typeless、Claude Code 语音模式，这条线画出了一个完整的弧线：语音的第一次崛起靠的是低门槛，它的衰落是因为低效率，而它的第二次崛起靠的是 AI 解决了效率问题。同一个技术，运作方式已经完全不同。

一个 77 亿美元的市场

Grand View Research 估算，AI 语音生成市场今年的规模约为 77 亿美元，到 2030 年将达到 218 亿美元。但数字背后隐藏着一个更有趣的问题：技术已经准备好了，人准备好了吗？

Clay 的 Tekriwal 承认，当他最初在开放办公区对着电脑说话时，同事的反应是困惑的，「这是在跟人说话，还是在自言自语？」尽管他的整个团队后来都转向了语音输入，但这个「尴尬期」本身就说明，语音作为工作界面面临的最大阻力不是技术问题，而是社会规范问题。

多伦多投资管理平台 Boosted.ai 经验更能说明问题。该公司去年在平台中加入了语音功能，一个名为 Alfa 的 AI 语音助手，可以朗读投资报告并接受语音指令。大多数机构客户试过让 AI 朗读报告，但主动对 AI 说话的人少得多。

Wispr 的 Kothari 估计，用户从键盘切换到语音大约需要两到三周的适应期。他说了一句很有意味的话：「需要改变的是社会观念——你不是因为对着电脑说话就成了疯子。」

语音 AI 的故事，表面上是一个交互方式的升级——从打字到说话，从键盘到麦克风。但更准确地说，它是一次轮回：语音从来不缺「自然」的优势，它缺的一直是一个足够聪明的中间层，来弥合「说」和「被理解」之间的鸿沟。2026 年，这个中间层第一次真正就位了。

接下来的问题不再是「语音能不能用」，而是：当说话比打字更高效的时候，我们的工作方式、协作习惯、甚至思考节奏，会被怎样改写？