把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈

机器之心 2026-07-03 21:54
把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图1


给 Code Agent 一个明确的数据文件,它往往能写出正确的分析代码。


但如果把它放进一个包含 1000 + 文件的真实数据目录,只告诉它一句自然语言问题,不给文件名、不告诉路径、不提供 schema,它还能完成任务吗?  


中国人民大学的研究团队提出 CoDA-Bench,联合评估 Agent 的 Code Intelligence + Data Intelligence。该基准首次把 Code Agent 放进包含 1000 + 数据文件的复杂环境下,要求模型先自主探索文件系统、找到相关数据,再编写代码完成分析。实验显示,即使当前表现最好的系统,在 CoDA-Bench 上执行准确率也只有 61.1%;在更难的 CoDA-HARD 子集上,最高准确率进一步降至 49.6%。  


当前 Code Agent 的真实瓶颈,并不是 “不会写代码”,而是找不对数据。相关论文、数据、代码均已开源:


把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图2



现有 Code Agent 评估的隐藏前提

数据已经被准备好


过去很多代码或数据分析评测,都会默认把目标文件交给 Agent。模型要做的是读取给定数据、编写代码、运行程序并输出答案。


但真实工作流里,用户往往不会提前整理好数据,也不会告诉 Agent 正确文件在哪。数据可能分散在复杂目录中,格式多样、命名不统一,还夹杂大量主题相近但实际无关的文件


这就带来一个容易被忽视的问题:如果 benchmark 默认把正确数据交给 Agent,它测到的更多是「给定数据后的代码能力」,而不是完整真实工作流中的 Agent 能力。


CoDA-Bench 关注的正是这个缺口:


当正确数据不再被提前给出时,当前 Code Agent 还能否完成数据密集型分析任务?


CoDA-Bench:

让 Agent 自己找数据、写代码、给答案


模型既需要找数据也需要写代码分析数据!


在 CoDA-Bench 中,Agent 被放入一个包含 1000 + 数据文件的 Linux sandbox。它只会收到一个自然语言任务,但不被告知目标分析文件路径、文件名或数据的 schema


它需要自己完成完整流程:



因此,CoDA-Bench 同时考察 Agent 的两类能力:



这使得 CoDA-Bench 不再只评测「给定数据后的代码生成」,而是评测从数据发现到代码执行的完整链条


把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图3


难点不在「文件多」,

而在「干扰文件也很像」


构造这样的环境并不容易,一种直观做法是往目录里塞很多无关文件。但随机放入大量无关文件,Agent 很容易通过文件名、关键词或格式把干扰数据排除掉。这样的环境看起来复杂,但并不能真实反映数据发现的难度。


CoDA-Bench 没有简单地使用随机噪声,而是基于 Kaggle 生态构建数据环境。研究团队分析了 Kaggle notebooks 中不同数据集的共现关系:如果多个数据集经常被真实用户在同一个 notebook 中使用,它们通常属于相近主题或分析场景。


基于这种共现关系,CoDA-Bench 构建了一个大规模数据集网络,并进一步划分出多个语义相关的数据社区,每个任务环境中的干扰文件都来自同一个数据社区。


这使得 Agent 面对的不是垃圾堆,而是一批看起来都合理的候选数据。


目标数据和干扰数据往往主题相近、结构相似,Agent 不能只靠简单关键词匹配,而必须真正理解任务需求和数据内容。


把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图4

构造CoDA-Bench数据环境所使用的Kaggle社区数据集共现关系图


从真实 Kaggle notebook 中

反向构造可验证任务


除了数据环境,CoDA-Bench 的任务本身也来自真实分析过程。


研究团队从 Kaggle notebooks 中提取可复现的分析结果,例如统计量、排名、比例、聚合结果等,并将这些结果作为 solution anchor,再反向构造自然语言问题。


这让 CoDA-Bench 的任务具备三个特点:



这种构造方式既保留了真实数据分析中的问题形态,也保证答案可以通过代码复现,便于自动化评测。


把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图5


结果:Agent 经常不是写错,而是先找错


研究团队评测了多个当前常用的 Code Agent 和 Agent 框架,包括 Claude Code、Codex CLI、OpenHands 和 Mini-SWE-Agent。


实验结果显示,当前强 Agent 在 CoDA-Bench 上仍然面临明显挑战



把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图6


更关键的问题是:这些失败并不总是来自代码写错。很多时候,Agent 在第一步就没有找到正确数据


为了区分「写代码难」和「找数据难」,研究团队进行了 oracle data 实验。


在普通设置中,Agent 需要自己从完整数据环境中发现相关文件;在 oracle 设置中,系统直接告诉 Agent 正确数据路径,只考察后续代码分析能力。


结果差距很大:



这说明,数据发现已经成为当前 Code Agent 的关键瓶颈


如果一个 benchmark 默认把正确数据交给 Agent,它可能会系统性高估 Agent 在真实数据分析场景中的能力。


把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图7


总结


CoDA-Bench 并不是为了证明某个具体 Agent 不够强,而是希望补上当前 Agent 评测中的一个重要缺口:真实任务中,数据往往不是已经准备好的输入,而是散落在复杂环境中的资源


一个真正可用的 Code Agent,需要先判断该用什么数据、从哪里找数据、如何验证数据是否匹配任务需求,然后才能谈得上写代码分析。CoDA-Bench 希望为这一方向提供更真实、更系统的评测基础。


论文、代码和数据均已开放,欢迎大家体验并提交新的 Agent 结果。


作者介绍


把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图8


张玉鑫中国人民大学信息学院在读博士生,导师为范举教授。研究方向包括大语言模型、数据智能体、数据分析与智能体强化学习,主要关注大模型在复杂数据环境中的自主查询、数据发现和代码分析能力。个人主页:yuxinzhang-research.github.io


把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图9


张绍磊,中国人民大学信息学院助理教授。他于中国科学院计算技术研究所获得博士学位。研究方向涵盖大语言模型、智能体系统、数据科学。相关研究成果在 NeurIPS、ACL、ICLR 等国际人工智能与自然语言处理会议发表论文 30 余篇,开源的多语言与多模态大模型项目在 GitHub 社区累计获得 10000 + 星标,模型下载量万余次。长期担任国际会议 ACL ARR 领域主席。个人主页:https://zhangshaolei1998.github.io/


把Agent丢入1000+文件:人大CoDA-Bench揭示Code Agent瓶颈图10


范举,中国人民大学教授、博士生导师,国家级青年人才,中国计算机学会数据库专委会、大数据专委会执行委员。研究方向包括:数据治理技术与系统、智能数据库系统等。相关研究成果在计算机领域国际顶级期刊 / 会议发表论文 60 余篇。作为负责人先后主持国家自然科学基金优秀青年基金项目、重点项目、面上项目,以及多项产学研合作项目。先后获得 ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、宝钢优秀教师等奖励。


© THE END

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
more
早报 | 美军开始对伊朗报复性打击;阿里百度等回应被美列入“涉军”清单;王传福回应股价被低估;谷歌CEO称其工作最可能被AI取代
超190亿!AI视频最大单笔融资诞生,阿里腾讯百度都投了
当营销变成巷战,百度智能云Hogee撒豆成兵
突发!美国防部更新1260H清单,阿里、百度、药明康德集体发布声明
iOS 27 Beta 2曝光百度视觉搜索组件,新机蓄势待发中
全民“养虾”时代?微信QQ内测接入OpenClaw“大杀器”,腾讯、字节、百度疯抢市场
8点1氪:百度废除字母职级标签;Meta被曝准备撤销对Manus收购;张雪称曾拒绝了半个亿的商务合作
「重返 Web2.0」!扎克伯格重做了一个「百度贴吧」,Why?
突发!又一批中企被美列入1260H清单,阿里百度蔚来等集体硬刚
阿里百度蔚来比亚迪回应被列入美军工名单;工信部整治App摇一摇跳转;王传福称5年后比亚迪将做到全球第一;微信朋友圈搜索全量开放...
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号