办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班

APPSO 2026-03-07 11:00
去年这个时候,如果你在办公室,原地突然就开始对着电脑说话,一次两次会被人以为是在打电话,三番五次就不禁让人怀疑——工作压力是不是太大了,都开始自言自语了?
但到了今年,可能就是用语音解放双手了。越来越多的员工选择对着屏幕口述,而不是敲键盘。不管是写代码、写方案,还是跟 AI 交流,用说的,开始变得越来越方便。
从「对话」到「操作」
3 月 3 日,Anthropic 向约 5% 的用户推送了 Claude Code 的语音模式。操作极简:在终端输入 `/voice`,按住空格键说话,松手即执行,转录 token 完全免费。
办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班图1
语音转文字,早就不是什么新鲜事儿了,但是,Claude Code 不是一个聊天应用——它是一个 AI 编程工具,年化收入在今年 2 月已突破 25 亿美元,两个月内翻倍。
当一个以「写代码」为核心场景的产品开始支持语音输入,它传递的信号是:语音不再是一个「更方便」的选项,而是被严肃对待的生产能力。
Bloomberg 也发现了这个现象,并且走访了纽约销售平台 Clay 的教育负责人 Yash Tekriwal 说,他用语音输入的速度是每分钟 205 个词,打字只有 110 到 120 个。更关键的是,他发现口述的 prompt 质量更高。
办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班图2
打字时工程师会写「fix bug」,但说话时会自然地给出更长、更具体的上下文描述。转录创业公司 Wispr 的 CEO Tanay Kothari 把这总结为:「打字时,你的 prompt 就是垃圾。」
200 毫秒,技术的拐点
语音作为生产工具之所以出现已久,却现在才真正可用,背后有一个关键的技术阈值被突破:端到端延迟降到了 200 毫秒以内。
一条完整的语音 AI 链路需要三步——语音转文字(STT)、大语言模型处理(LLM)、文字转语音(TTS)。一年前,这条链路的总延迟在 500 到 800 毫秒,用户能明显感觉到「卡顿」。今年 3 月的多项基准测试确认,这个数字已经被压缩到 200 到 250 毫秒。最典型的是 Deepgram Aura-2(TTS),首字节延迟 90–200ms,支持 7 种语言。
办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班图3
200 毫秒是一个什么概念?人类面对面对话中,轮换间隔的中位数大约在 200 到 300 毫秒。这就意味着,AI 语音交互的响应速度已经达到了人类对话的自然节奏。这意味着用户不再需要「等待」AI 回应——对话可以像和真人说话一样流畅地进行。
风水轮流转
曾几何时,语音也是互联网的宠儿。
2011 年,微信上线。它在早期与米聊、飞信的竞争中冒头,一个被反复提及的差异化功能就是语音消息。在智能手机刚刚普及、大量用户尚不熟悉触屏打字的年代,按住说话、松手发送的交互方式几乎是零门槛、直觉性的
语音消息帮微信在市场打开了缺口,但辉煌并没有持续。随着用户习惯成熟,语音消息逐渐变成了一个被「忍受」多于「喜爱」的功能:60 秒的语音条需要慢慢收听、无法快速浏览、在公共场合不方便播放,还得手忙脚乱地调音量。
微信自己也意识到了这个问题——它先后上线了语音转文字、语音消息进度条拖拽、倍速播放等一系列补救功能,本质上是在承认,纯语音的信息密度和使用效率,在很多场景下不如文字。
办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班图4
语音的用户心智一度跌入低谷。在社交中,发语音甚至成了一种带有压迫感的行为,观感很不好。
然而风水轮流转,AI 的介入让语音的价值结构发生了根本性的变化。过去,语音消息的问题在于:说的人省事了,但听的人要花更多时间去解码——信息的负担从发送方转移到了接收方。而现在,AI 充当了中间层:你对着 AI 说话,AI 把你的语音转化为结构化的文字、代码、指令。语音的「输入快」优势被保留了,而「输出乱」的劣势被 AI 吸收了。
这也是 Typeless 这样的产品正在验证的逻辑。它们不是在做「语音消息 2.0」,而是让语音回归为一种输入方式——你说话,但对方看到的是整理好的文字。语音不再是一个需要被「忍受」的沟通格式,而是一个被 AI 翻译过的高效输入通道。
办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班图5
从微信语音消息到 Wispr、Typeless、Claude Code 语音模式,这条线画出了一个完整的弧线:语音的第一次崛起靠的是低门槛,它的衰落是因为低效率,而它的第二次崛起靠的是 AI 解决了效率问题。同一个技术,运作方式已经完全不同。
一个 77 亿美元的市场
Grand View Research 估算,AI 语音生成市场今年的规模约为 77 亿美元,到 2030 年将达到 218 亿美元。但数字背后隐藏着一个更有趣的问题:技术已经准备好了,人准备好了吗?
Clay 的 Tekriwal 承认,当他最初在开放办公区对着电脑说话时,同事的反应是困惑的,「这是在跟人说话,还是在自言自语?」尽管他的整个团队后来都转向了语音输入,但这个「尴尬期」本身就说明,语音作为工作界面面临的最大阻力不是技术问题,而是社会规范问题。
办公室里对着 AI 说话的人,可能会比用键盘打字的人更早下班图6
多伦多投资管理平台 Boosted.ai 经验更能说明问题。该公司去年在平台中加入了语音功能,一个名为 Alfa 的 AI 语音助手,可以朗读投资报告并接受语音指令。大多数机构客户试过让 AI 朗读报告,但主动对 AI 说话的人少得多
Wispr 的 Kothari 估计,用户从键盘切换到语音大约需要两到三周的适应期。他说了一句很有意味的话:「需要改变的是社会观念——你不是因为对着电脑说话就成了疯子。」
语音 AI 的故事,表面上是一个交互方式的升级——从打字到说话,从键盘到麦克风。但更准确地说,它是一次轮回:语音从来不缺「自然」的优势,它缺的一直是一个足够聪明的中间层,来弥合「说」和「被理解」之间的鸿沟。2026 年,这个中间层第一次真正就位了。
接下来的问题不再是「语音能不能用」,而是:当说话比打字更高效的时候,我们的工作方式、协作习惯、甚至思考节奏,会被怎样改写?

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 键盘
more
AMD加码MI450量产与超算巨头合作,抢占AI基础设施市场
谷歌DeepMind高管邀请千问团队入职,OpenAI千亿投资告吹,新MacBook在欧不送充电器,小鹏汇天飞行汽车批量下线,这就是今天的其他大新闻
Luma AI推出“Luma Agents”智能体平台,重构创意工作全流程
AI智能体引爆CPU需求 双雄预警供应压力加剧
美光发布256GB SOCAMM2模组,单CPU内存扩容至2TB赋能AI服务器
火速捡漏?阿里正式批准林俊旸辞职,谷歌DeepMind立刻抛橄榄枝;某车CEO头戴摄像头炮轰激光雷达:放在车顶不好看;OpenAI深夜祭出GPT-5.4
早报 | 道指跌近800点,美油涨超6%;阿里辟谣千问模型团队集体离职;美拟将AI芯片出口管制扩展至全球;比亚迪发布第二代刀片电池
原来Grok是36个小时极限卷出来的!xAI创始成员离职后放开说了
Cursor版OpenClaw登场!AI自己审代码、修漏洞,程序员的龙虾自由来了?
Anthropic失业报告炸场!22-25岁年轻人被斩杀,AI淘汰75%编程
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号