【科技24时区】人工智能正以前所未有的方式重塑软件开发流程,大量繁琐的编程任务如今已由多个AI代理及其子代理协同完成。随着开发者不断探索人机协作的新界面与新形态,即便是最前沿的AI实验室也面临难以跟上技术演进节奏的挑战。

当前行业趋势聚焦于“代理式软件开发”(agentic software development),即由AI代理独立承担编码任务。这一模式以Claude Code和Cowork等应用为代表。与此同时,OpenAI自去年4月推出命令行工具Codex以来,逐步扩展其功能,并于一个月后上线网页版界面。如今,该公司迈出关键一步——于本周一正式发布Codex的macOS原生应用,全面整合过去一年广受开发者欢迎的代理式工作流。
据悉,新版Codex应用支持多代理并行运行,可融合不同代理的技能模块,实现更高效、更灵活的开发体验。此次发布距离GPT-5.2-Codex模型的推出尚不足两个月。作为OpenAI迄今最强大的代码生成模型,GPT-5.2-Codex被寄予厚望,旨在吸引Claude Code用户转向其生态。公司首席执行官山姆·阿尔特曼(Sam Altman)在媒体电话会上表示:“如果你要处理高度复杂的任务,GPT-5.2目前是遥遥领先的最佳选择。但过去它使用门槛较高,因此我们将这一强大能力嵌入更灵活的界面中,我们认为这将产生重大影响。”
然而,尽管阿尔特曼对GPT-5.2充满信心,实际评测结果却更为复杂。截至发稿,GPT-5.2在TerminalBench(一项衡量AI处理命令行编程任务能力的基准测试)中确实位居榜首。但Gemini 3和Claude Opus的代理系统得分虽略低,仍处于该基准测试的误差范围内。另一项针对真实世界软件漏洞修复能力的SWE-bench测试也显示出类似结果,未体现出GPT-5.2的显著优势。
值得注意的是,代理式应用场景本身难以通过传统基准有效衡量,且顶尖模型在用户体验层面存在显著差异。为此,OpenAI在Codex应用中引入多项新功能,力求在部分场景下超越Claude系列应用。例如,用户可设置自动化任务在后台按计划运行,结果将自动排入队列,待用户返回后统一审阅。此外,应用还支持为AI代理选择不同“性格”——从务实型到共情型——以适配不同开发者的工作风格。
对OpenAI而言,其核心卖点在于AI赋能下前所未有的开发速度。阿尔特曼强调:“你可以从一张白纸开始,在短短几小时内构建出相当复杂的软件。只要你能快速输入新想法,这就是你能构建系统的上限。”这一理念正契合当前AI编程工具从“辅助”向“核心引擎”演进的大趋势。
另据活动信息,TechCrunch将于2026年6月23日在波士顿举办“Founder Summit 2026”创始人峰会,预计将有超过1,100位创始人齐聚一堂,聚焦增长策略、执行效率与规模化实践。参会者可向行业领军者学习,并与处于相似发展阶段的同行建立联系。目前门票已开售,个人购票最高可省300美元,四人及以上团队购票可享最高30%折扣。