Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26

新智元 2026-02-27 14:15
Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图1

 

  新智元报道  

编辑:LRST
【新智元导读】AI能写代码,却修不好构建环境、看不懂系统监控、串不起全链路运维——新基准DevOps-Gym显示,顶级模型在真实软件工程任务中全链路成功率归零,暴露其缺乏长程推理与动态系统理解能力,AI辅助编程远未触及真实开发核心。

随着LLM的爆发,Coding Agent似乎已经无所不能:写函数、修Bug、甚至刷LeetCode,但任何一位在一线摸爬滚打过的软件工程师都知道,写代码(Coding)仅仅是软件工程(Software Engineering)的一小部分。

在软件工程领域,尽管AI Agent在代码生成方面表现出色,但在处理真实的DevOps全链路时能力依然未知。

在真实世界中,一个代码变更的生命周期是漫长而痛苦的: 你需要搞定复杂的构建环境(Build & Config); 你需要将代码部署上线,并盯着仪表盘监控它是否导致了内存泄漏(Monitoring); 当警报响起,你需要从日志中定位问题并修复(Issue Resolving); 最后,你还得补上回归测试,确保问题不再复发(Test Generation)。

实际开发不仅是写代码,更涉及复杂的环境构建、运行时监控、故障排查与测试验证,现有的评估基准大多局限于独立的编码任务或模拟环境,缺乏对真实运维场景的覆盖 。

目前的Benchmark(如SWE-bench或HumanEval)大多只关注「写代码」这一环。

为填补这一空白,UCSB、NUS与Berkeley等联合团队提出了首个针对DevOps核心工作流(构建配置、监控、问题修复、测试生成)的端到端评估框架DevOps-Gym,不仅要评估 AI 「写」代码的能力,更要评估其「运维」和「治理」代码的能力。

Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图2

论文链接:https://arxiv.org/abs/2601.20882

主页链接:https://www.devops-gym.com/

DevOps-Gym包含来自30+个真实Java和Go项目的700+个任务,并提供全容器化的执行环境。

实验表明,即使是SOTA模型(如Claude-4-Sonnet),在构建与配置任务上的成功率仅为51.85%,监控任务仅为20.56%,而在全链路流水线任务中成功率更是为0%,揭示了当前AI在处理动态系统与长链路推理上的显著短板。

 
Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图3
DevOps-Gym不只是代码
真实世界的「修罗场」标题

 

Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图4

DevOps-Gym是首个针对软件DevOps全生命周期的端到端Benchmark,研究人员没有使用模拟环境,而是基于30+个真实的Java和Go开源项目,构建了700+个真实任务

在这个Gym里,Agent需要像人类工程师一样,在隔离的容器环境中,通过命令行工具与系统交互,覆盖了DevOps的四大核心阶段:

  1. 构建与配置 (Build & Configuration):Agent 的「盲区」

这可能是目前 AI 最不擅长的领域,任务不仅仅是简单的编译,还包括:

  1. 监控与异常检测 (Monitoring):像侦探一样工作

这是现有Benchmark极少涉及的领域,模拟了应用上线后的运行时环境:

  1. 问题修复 (Issue Resolving):跨越语言的鸿沟

基于真实的GitHub Issue和PR构建任务。与SWE-bench不同的是,该基准专注于Java和Go项目。

实验表明,从Python切换到这些编译型语言后,由于涉及复杂的编译过程和更严格的类型系统,Agent的表现出现了断崖式下跌。

  1. 测试生成 (Test Generation):闭环的关键

Agent必须在不看修复代码的情况下,仅根据Bug描述编写回归测试。

挑战在于,生成的测试必须满足「Fail-to-Pass」标准——在Bug版本上失败,在修复版本上通过,要求Agent对程序的运行时行为有极强的推理能力。

 
Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图5
终极挑战
End-to-End Pipeline

 

为了模拟最真实的生产环境,研究人员设计了18个全链路流水线任务 (End-to-End Pipelines)

规则很残酷,Agent必须连续完成Build → Monitor → Fix → Test的全过程,这是一个串行任务,任何一个阶段失败(比如构建没修好,或者监控没发现问题),整个 Pipeline 直接终止。

 
Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图6
实验结果
残酷的现实

 

研究人员评估了包括Claude-4-Sonnet、OpenAI o4-mini、DeepSeek-V3.1等在内的SOTA模型。结果如下:

  1. 全链路全军覆没在End-to-End Pipeline任务中,目前所有Agent的成功率均为0%,这说明Agent极度缺乏在长链路任务中保持上下文和跨阶段推理的能力。

  2. 构建与监控是短板即使是表现最好的Agent (Claude Code),在构建任务上的成功率也仅为51.85%,而在监控任务上仅为20.56%

  3. 监控中的「注意力涣散」研究人员发现Agent在监控任务中经常「走神」。面对不断刷新的系统状态,它们往往过度关注早期的观测结果,而忽略了后续出现的关键异常信号。

  4. 非Python语言的弱势在Issue Resolving任务上,同样的模型在Python Benchmark上表现出色,但到了Java/Go环境中,能力大打折扣(例如Claude-4-Sonnet + OpenHands仅有23.87%的修复率)。这可能与预训练数据中Python的主导地位有关。

Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图7

Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图8

评估架构

 

全容器化环境 (Dockerized Environments)

所有的任务都在隔离的、可复现的Docker容器中运行。

兼容TerminalBench格式

为了方便社区接入,完全复用了TerminalBench的标准格式。只需一行命令即可启动评估,获得Pass/Fail结果。

拒绝数据污染

为了确保评估的公正性,采用了严格的去污染流程,剔除了可能存在于训练数据中的代码库,同时移除了所有的Git Metadata,确保Agent无法通过 git log 或查看历史提交来「作弊」获取修复方案——这是此前一些Benchmark中存在的漏洞。

 
Agent全链路成功率0%?首个真实DevOps基准曝致命短板|ICLR'26图9
结语

 

DevOps-Gym的发布揭示了一个事实:AI辅助编程正在走向成熟,但AI辅助软件工程(AI for SE)才刚刚起步。

如果不解决构建环境的复杂性、运行时监控的动态推理以及长链路的上下文保持问题,AI Agent就很难真正接管生产环境的DevOps工作,希望DevOps-Gym能成为衡量这一领域进展的标尺。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
功率
more
紫光国微拟收购瑞能半导100%股权,加速构建功率半导体IDM能力
2026年半导体行业趋势观察(Part 5)- NOR Flash、MEMS与传感器、功率器件三大领域洞察
新品 | 第五代CoolGaN™ 650-700V氮化镓功率晶体管G5
安世中国功率半导体全面切换国产晶圆
手机放电饭煲内胆抢票成功率陡增? 多家手机品牌客服回应
功率氮化镓市场,迎来黄金时代
ASML EUV光源功率突破1000瓦,2030年晶圆产能有望跃升50%
北大新作EvoVLA:大幅降低机器人幻觉,长序列成功率暴涨10%
功率放大器如何选型?如何确保功放的功率稳定输出?
厦门大学杨伟锋教授团队在第四代半导体氧化镓功率器件和深紫外光电探测器领域研究取得重要进展
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号