Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完

机智流 2026-05-08 20:30

Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完图1


> 本文来自社区投稿

导读:先说结论

Claw-Eval-Live 不是简单把 Claw-Eval 扩大一圈,而是在回答另一个更现实的问题:当 Agent 的能力开始接近部署边界时,评测基准不能只测“模型能不能答对”,还要测“它是不是在做当下真正重要的工作流”

Claw-Eval 解决的是第一层:怎么确认 Agent 真的完成了任务。

Claw-Eval-Live 解决的是第二层:题库本身如何持续跟上现实需求。当前公开 release 包含 105 个任务、17 个任务家族和 13 个前沿模型。

结果显示,最强模型仍没过 70%,真正卡住模型的并不是终端 / 工作区修复,而是 HR、管理、跨系统业务工作流

一、为什么“只看答案”不够了

传统评测里,最终结果很重要。测试通过、答案匹配、文件生成,就可以判定任务完成。但 Agent 不一样。它的输出往往不是一段文本,而是一连串对外部环境的动作:调用 API、修改状态、写入数据库、更新工作区、发送请求。

这就带来一个很实际的问题:模型交上来的总结很好看,但它真的查过正确的数据源吗?它有没有漏掉关键工具调用?有没有把不该改的东西改了?如果只看最后一段回答,这些问题很难发现。

Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完图2

Claw-Eval 的做法,是把“行动”本身变成评测对象。每次评测在隔离环境里运行,分为 Setup(准备阶段)Execution(执行阶段)Judge(判分阶段) 三个阶段;真正参与打分的,是执行轨迹、服务端审计日志、执行后的环境快照这三条证据链。

这不是锦上添花。论文里一个对照实验显示:让 LLM 评分器拿到完整对话记录和评分脚本源码,只缺审计日志与环境快照,它仍然漏掉 44% 的安全违规和 13% 的鲁棒性问题。也就是说,只看结果会系统性高估 Agent。

Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完图3

Claw-Eval-Live 论文:https://arxiv.org/abs/2604.28139

Claw-Eval-Live Leaderboard:https://claw-eval-live.github.io

Claw-Eval-Live 代码:https://github.com/Claw-Eval-Live/Claw-Eval-Live

Claw-Eval 论文:https://arxiv.org/abs/2604.06132v1

Claw-Eval 代码:https://github.com/claw-eval/claw-eval

作者单位:香港中文大学、香港中文大学(深圳)、香港大学、北京大学、厦门大学、华南理工大学

二、但评得再准,也可能测偏

Claw-Eval 把“怎么看”做扎实之后,另一个问题浮上来了:如果 评测基准测的工作流正在变旧,那么评测再可信,也可能不再相关。

Agent 的任务不是抽象的语言题,而是具体的工作流。今天企业最想自动化的事情,可能是跨系统对账;下个季度,可能变成 HR 入职、工单分派、日历协调、供应商付款验证。一个静态 评测基准 可以长期可复现,但它的任务混合比可能已经悄悄偏离真实需求。

Claw-Eval-Live 想解决的正是这个偏移。它不是每天随机换题,而是按 release 冻结:每一次 release 都是当下真实工作流的一张时间戳快照。

三、一个 live benchmark 怎么保持可比性

Claw-Eval-Live 的关键设计,是把系统拆成信号层和发布层。

Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完图4
  • 信号层:从 ClawHub Top-500 热门技能等公开的工作流需求信号出发,观察哪些工作流更值得被测。
  • 发布层:真正公开的 benchmark 仍然是固定快照,任务定义、执行环境、数据夹具、评分脚本全部锁定,保证模型之间可以稳定比较。

这里最容易被误解的一点是:ClawHub signals 不是 ground-truth demand(真实需求本身),也不是自动出题器。它只是一个公开、可检查的需求先验线索,用来校准任务家族权重。真正的题目仍然经过人工设计、试跑筛选和冻结。

Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完图5

从信号到 release,中间有五步:

  • 抓取时间戳快照;
  • 把碎片化技能聚成稳定工作流模式;
  • 根据上游信号确定家族权重;
  • 把模式扩展成可执行候选并试跑筛选;
  • 最后用 MILP(混合整数线性规划)从候选中选出公开任务,同时约束发布规模、家族覆盖和榜单区分度。

这样做的好处是,评测基准不会“天天漂移”,但也不会停在旧的任务分布里。它仍然可复现,只是每个 release 都明确对应一个时间点。

四、当前 release:105 个任务,13 个模型

当前公开 release 包含 105 个任务、17 个任务家族和 13 个前沿模型。每道任务都不是一个 prompt,而是一个完整可执行单元:task.yaml、工具接口、数据夹具、grader.py 缺一不可。

评分上,Claw-Eval-Live 继续沿用证据锚定原则:优先看确定性证据,比如是否调了正确工具、实体和数值是否与 ground truth 一致、必需的状态变更是否真的发生。只有当确定性检查覆盖不了报告组织质量、摘要连贯性这类语义维度时,才引入结构化 LLM judge。

五、实验结果:整体天花板仍然很低

Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完图6
Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完图7

结果足够冷峻:没有任何模型突破 70% 的通过率,榜首到末尾差距达 22.9 个百分点。这说明真实工作流自动化远没有到可靠部署的阶段。

更值得看的,是“通过率差不多但完成度不同”的情况。比如 MiMo V2 Pro、Kimi K2.5、Gemini 3.1 Pro 都是 53.3% 的通过率,但 Overall Completion 从 76.9 到 74.0 不等。这类模型不是完全不会做,而是经常差一点做完:漏一步调用、少一个证据、状态没收干净

六、真正难的不是 Terminal

Agent真的能完成入职办理这样的跨系统真实业务吗?港中文等团队提出Claw-Eval-Live,让Agent评测在多个系统里把业务真的跑完图8

最有冲击力的发现,是任务难度和直觉并不一致。Development / Terminal(开发 / 终端类任务) 看上去很硬核,但对强模型已经接近天花板:Claude Opus 4.6、GPT-5.4、Claude Sonnet 4.6 在这个切面都达到 100%,最弱模型也在 72.2% 以上。

真正困难的是 HR / People(人事相关任务)Management / Ops(管理与运营任务) 和跨系统工作流。HR / People 这一组里,没有模型超过 22.2%;细粒度 family(任务家族)里,HR 平均通过率只有 6.8%,管理类任务在公开通过规则下全部失败,工作量平均通过率也只有 12.8%。

把任务按执行面拆开后,这个差异更明显:workspace 侧,所有模型至少达到 72.2%;service-backed workflows 侧,没有模型超过 59.8%。这说明当前 Agent 的短板,不是“会不会用 terminal”,而是“能不能在多个系统之间持续收集证据、正确关联记录,并完成必须的写操作”

七、“说得好”不等于“做得到”

这也是 Claw-Eval-Live 和很多聊天/写作榜单不一致的原因。它不奖励最终回答写得多漂亮,而是奖励完整的行动闭环。一个模型可以写出很流畅的总结,但如果漏了必需工具调用、遗漏关键证据、或者执行后状态不对,就过不了。

论文里一些高区分度任务很能说明问题:

  • 电商月度对账、客服首次响应时间审计、多文档合并,都要求模型从多个来源精确提取数据。任何一个工具调用遗漏、实体链接错误,都会让分数大幅下降。
  • HR_01_onboarding 也类似:模型能写出体面的入职文档,但如果员工信息、必需 tool call 和证据闭环没补齐,仍然不算完成。

八、部署视角:准确率之外还有成本

如果从部署角度看,成本差异同样明显。论文按记录的输入/输出 token 用量和发布时 provider list price 估算,Claude Opus 4.6 跑完整个 105 题 release 约 31.6 美元;GPT-5.4 约 6.3 美元拿到第二名,通过率只低 2.9 个百分点;GLM-5 约 2.5 美元达到与 Claude Sonnet 4.6 相同的 61.9% 通过率,成本约为 Opus 的 7.8%。

所以真实部署时,总榜只是起点。更实用的决策维度应该是:某个 workflow 家族上的准确率 × 运行成本。

九、总结

Claw-Eval 证明了 Agent 评测不能只看结果,否则会系统性高估模型;Claw-Eval-Live 进一步说明,评测基准也不能长期停在静态题库里,否则可能测得很准,却测在了已经不那么重要的任务上。

两者合在一起,把 Agent 评测基准的问题拆成了两半:先确认 Agent 真的做了,再确认我们测的是当下最值得做的 workflow。

Claw-Eval-Live 论文:https://arxiv.org/abs/2604.28139

Claw-Eval-Live Leaderboard:https://claw-eval-live.github.io

Claw-Eval-Live 代码:https://github.com/Claw-Eval-Live/Claw-Eval-Live

Claw-Eval 论文:https://arxiv.org/abs/2604.06132v1

Claw-Eval 代码:https://github.com/claw-eval/claw-eval

-- 完 --


加入机智流 Pro,1 天一块钱,AI 能力指数级增长时代,不掉队。机智流 AI 团队将燃烧远超人类的智能的 AI Tokens 驱动 AI Agents 军团带来「与你有关」「对你有用」的高质量资讯/研报。


机智流推荐阅读

1. 

2. 

3. 

4. 

关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • lc|LangChain 技术交流群
  • code | AI Coding 交流群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 推理 | AI 推理框架交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
国产半导体破局路径引热议:九位产学研领袖联合建言“十五五”攻坚EDA、EUV与硅片
不只是Seedance2.0!又一国产模型杀入全球榜二,改写AI视频格局
Seedance 2.0正式公布定价标准:纯视频生成约1元/秒,画质与精度成核心卖点
AI 赋能,标准引领 | EDA²成功举办第五届EDA标准全会
张一鸣突然爆发,字节Seedance 2.0模型震惊全球
英伟达、台积电先后押注3DIC与 EDA,本土企业如何突围?
Seedance 2.0 炸场之后,豆包 Seed2.0 能否再度勇攀高峰?
【五维分析】2025年国产EDA/IP上市公司市场表现指数榜单
AI赋能EDA关键技术:华大九天斩获CITE 2026创新奖
告别抽卡!一手实测字节刚放出的视频模型Seedance 1.5 pro
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号