别写 prompt 了,CodeX 新功能来了

科技狐 2026-06-20 23:14
别写 prompt 了,CodeX 新功能来了图1

你坐在电脑前填报销单,一不小心填错就被财务退回来,又得重新走一遍。

这种事咱都经历过。步骤不复杂,但每次都得重头来。打开办公审批,选类目,填金额,挑审批人,上传发票。做一次三五分钟,做一百次就是五六个小时。而且最烦人的是,每一遍流程完全一样,就是数字不一样。

以前你想让 AI 帮你搞定这事,得把每一步写成清清楚楚的指令。你先点这里,再选这个,再填那个,如果遇到 A 就选 B。哪怕漏一个细节,它就当场翻车。

但这几天,Codex 上线了个新功能,叫 Record & Replay。

别写 prompt 了,CodeX 新功能来了图2

它说,你不用写了,做一遍给我看就行。

好家伙,这口气确实不小。但咱先把这个 Codex 搞清楚,它到底是个什么东西。

很多人可能还停留在“ AI 不就是个聊天框吗”的阶段。

Codex 不一样。它是 OpenAI 做的桌面端应用,直接装在你电脑上。

它不光能跟你对话,最狠的是它能直接操作你的电脑桌面。点菜单、填表单、开浏览器、拖文件,你平时用鼠标键盘干的活,它都能干。说白了,它不只动嘴,还能动手。

别写 prompt 了,CodeX 新功能来了图3

这东西今年用户涨得相当凶。年初每周大概 75 万人在用,到这个月已经破了 500 万。半年快翻了七倍。

有意思的是,500 万人里面,五分之一压根不是程序员。是分析师、运营、行政,是天天跟表格和审批打交道的普通白领。

好,讲回这个新功能。Record & Replay,到底能干啥?

三个字概括:你做,它学。

你打开 Codex,点一下“Record a skill”,开始录。然后你就跟平时一样干活,比如说,填那张报销单。

你正常操作就行。打开办公审批,点费用报销,选差旅费科目,填金额 3600,日期 6 月 15 号,上传发票,选部门领导审批,提交。Codex 全程在旁边看着。你点哪个菜单、填什么字段、怎么切窗口,它全记下来。

别写 prompt 了,CodeX 新功能来了图4

干完点停止录制。Codex 自动复盘刚才那套操作,生成了一个叫 SKILL.md 的文件。

这儿有个关键点,很多人第一次听以为就是个录屏。不是。Codex 不是把你的操作当成死录像存起来,它理解到了,金额 3600 和日期 6 月 15 号是会变的参数,而差旅费和审批人是基本不变的配置。

简单说就是:你演一遍,它看懂逻辑,以后换套参数替你跑。

别写 prompt 了,CodeX 新功能来了图5

到了下个月报销日,你打开 Codex 说一句“用报销技能,金额 4800,6 月 20 号”。它自己打开软件,选科目,填数字,上传发票,提交。你全程不用碰鼠标。

以前你填一张单子三分钟,一个月十几张,一年下来好几个通宵的加班。现在一句话的事。

那你可能会问,生成的 SKILL.md 到底是个啥?

说白了,就是 AI 之间共用的一份操作说明书。它不是黑盒子,你能打开看它写了什么,不满意还能动手改。更重要的是,这个格式不只 Codex 认识,Claude 等其他 AI 工具也能读,它是个跨平台标准。你录好的报销技能,打包发给同事,他装上就能用。一人录,全团队用。

OpenAI 官方还演示了个更复杂的例子,上传 YouTube 视频。

选视频文件、填标题描述、传缩略图、加字幕、设隐私选项,一整条流程十几步。Codex 看完一遍,不仅会重复做,还自己悟出了几样东西。它发现有对 .mp4 视频文件和 .srt 字幕文件名字一样,自己就把它们配对。它根据标题内容判断这视频该设 Private 还是公开。录的时候报了个 Python 环境缺失的错,它自己找到别的已安装 skill,绕过去了。

这已经不是背操作步骤了,这是在理解操作逻辑。

别写 prompt 了,CodeX 新功能来了图6

所以什么样的事适合丢给它?

记住一个原则:步骤固定,参数会变。报销、发视频、建工单、拉周报、订会议室,都算。反过来,需要临场判断的,界面天天改的,碰到钱的,现在还不合适。

不过,聊到这儿你可能想到了。这不就是录宏吗?

老狐认为,还真不是。

录宏是个啥?你点开始录,它记“在屏幕坐标(300, 200)点一下”,“在坐标(500, 400)输入文字”。这玩意有多脆弱呢?系统换个字体,UI 挪几个像素,它就瞎了。按键精灵时代的产物,主打一个死板。

Record & Replay 不一样在哪?它根本不记你在哪点的。它理解“这一步是想选差旅费这个科目”,不是“在坐标 X 点了一下”。下次页面改版了,科目那个按钮换了个位置,只要它还在界面上,AI 就能找到。

最关键的是,生成的 SKILL.md 是活的。你可以打开看,里面有触发条件,有执行步骤,有验证方式,出错能定位到哪一步翻了车。你演示的时候漏了一步,事后还能补进去。碰到新的特殊情况,让 Codex 直接改这个 skill 就行。

用码农的话说,录宏是录的像素,这是录的逻辑。

别写 prompt 了,CodeX 新功能来了图7

行,该说的好话也说了。接下来老狐要泼点冷水。

第一个明摆着的坑:你只录了“顺利的那一遍”。你在旁边看着的时候,录得行云流水。

可真实世界里,报销的时候弹验证码了怎么办?日期格式不对怎么办?审批人离职了怎么办?Codex 只学了“这次没弹”,下次弹了它就傻了。

第二个坑,这东西靠的是 Computer Use,也就是 AI 看屏幕识别按钮来操作。

这就有个天然的不稳定:页面改版、加载卡住、突然弹个广告,都可能让它翻车。你给财务系统录了个报销 skill,下周财务系统更新了界面,这个 skill 可能就跑不通了。

别写 prompt 了,CodeX 新功能来了图8

屏幕识别授权请求

第三个坑更实际,它现在是 Mac 专属。Windows 用户还不行,欧洲用户也不行——涉及到 GDPR 的屏幕数据合规问题,暂时被挡在门外。

还有个事老狐得提一嘴,隐私。录制的时候,你屏幕上显示的所有东西它都看到了。你要是在录报销的时候不小心切到了微信聊天窗口,嗯,它也看到了。所以 OpenAI 自己都提醒,密码、私密数据别录进去。

再就是技能质量这回事,完全看你演示的水平。你平常操作就东点一下西点一下不规范,生成的 skill 也一样靠不住。说白了,你啥水平,它就啥水平。

但话说回来。

如果这条路走通了,事情会变得非常有意思。

过去软件的自动化靠 API。什么叫 API?就是软件开发者专门给你开一扇后门,说你可以通过代码来调用我。没开这个后门的软件,你跟它就只能靠鼠标键盘。

Record & Replay 的思路是,我不要你的后门了,AI 直接学人怎么用软件。人看得懂的按钮和菜单,AI 也去理解。人能完成的点选和输入,AI 也去执行。AI 的工作对象,从 API 扩展到了整个图形界面。

这会带来一个长期但确定的变化:不会写代码的普通人,更容易把自己重复劳动自动化了。

更远地看,人正在从软件的操作者,变成软件能力的训练者。

今天你还在学怎么用好飞书,怎么用好 Office,以后更重要的能力可能是:怎么教会 AI 替你用好这些东西。

当然,这话现在说还有点早。这东西刚上线不久,能录的流程还有一堆 corner case 没被踩过,Computer Use 点 UI 的稳定性也还远没到“能闭着眼交给你”的程度。给它时间,别给它命。

以前我们学各种工具,是为了自己把活干好。以后我们教 AI 学工具,是为了自己不用亲手干。

这个功能最值得被记住的,可不是某个操作细节,也不是某个技术参数,是它换了个思路。

以后让 AI 替你干活,不用绞尽脑汁写大段说明了,做一遍就行。

至于那些现在还不够稳、不够好的地方,也不急。Codex 这半年的更新节奏咱都看着,我猜它很快就能跟上咱吐槽的速度。

撰文:HQL

别写 prompt 了,CodeX 新功能来了图9
别写 prompt 了,CodeX 新功能来了图10

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
加速变道很顺,一认路就犯傻! 特斯拉 FSD表现糟糕,是导航的锅?
特斯拉FSD入华真相:L2级“监督版”并非完全自动驾驶,本土化挑战仍存
特斯拉宣布:监督版FSD正式进入中国
iOS 27全新拍照AI功能曝光,库克或最后一次主讲/ 曝GPT和Claude将在6月发布新模型/特斯拉FSD更改中文名
加速扩张!全球130万车主使用特斯拉FSD
段永平分享特斯拉FSD体验:很好用,曾不慎睡着40分钟
昨夜今晨全球大公司动态 | 法拉利发布首款纯电动汽车;SpaceX与特斯拉合并传闻再起
特斯拉FSD丹麦获批
狡诈!特斯拉被曝修改FSD购买协议
OpenAI芯片核心元老量产前夜出走Anthropic;特朗普欲入股OpenAI,白宫AI顾问同日离职;特斯拉AI基础设施副总裁杰加纳坦离职丨硅谷大事件
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号