首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

AI生成未来 2025-09-11 00:01
点击下方卡片,关注“AI生成未来

如您有工作需要分享,欢迎联系:aigc_to_future

转载自:量子位

如有侵权,联系删稿

数据智能体到底好不好用?测评一下就知道了!

南洋理工大学、新加坡国立大学携手华为开源推出首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试FDABench

该基准横跨50+数据领域、设置了多种难度等级和任务类型,还独创了Agent-Expert协作框架,确保测试用例质量和数据一致性,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式。

资讯配图

团队使用FDABench对各种数据智能体系统进行了评估,发现每个系统在响应质量、准确性、延迟和token成本方面都表现出独特的优势。

下面详细来看。

数据库、PDF、视频、音频异构数据源一网打尽

面对数据驱动决策的需求日益增长,这催生了对能够整合结构化和非结构化数据进行分析的数据智能体的迫切需求。

资讯配图
Data Agent 样例

资讯配图Data Agent System架构

尽管数据智能体Data Agents在让用户执行复杂分析任务方面展现出潜力,但该领域仍存在三个关键局限性:

为应对这些挑战,团队提出了FDABench,这是首个专门为评估多源数据分析场景中的智能体而设计的数据智能体基准。

资讯配图FDAbench概览

这个基准涵盖了2007个不同的测试任务,覆盖50多个领域,比如金融、电商,还有简单、中等、难三种难度。 推理所需数据包括结构化数据库、PDF文档、视频、音频等异构数据源。

资讯配图

任务类型也分三种:单选题(比如算具体数值)、多选题(比如选多个正确结论,包含具体数值和综合报告推理)、写报告(比如整合数据出分析报告),能全面测数据智能体的能力。

资讯配图FDABench样例

团队还设计了统一Agent-Expert协作框架,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式(规划Planning、工具使用Tool-use、反思Reflection、多智能体Multi-Agent),可无缝集成不同Data Agent系统架构。

不管数据智能体是靠“提前规划步骤”、“调用工具”、“自我修正”还是“多智能体协作”工作,都能兼容测试,不用换个数据智能体就重新搭测试框架。

研究人员用FDABench测试了市面上常见的几种数据智能体。

一类是通用的数据分析系统,比如能生成财务报告的DAgent、能处理多模态数据的Taiji;

资讯配图
一类是擅长语义理解的语义算子系统,比如能精准处理用户自然语言查询的LOTUS;
资讯配图
还有一类数据智能体Data Agent是带检索增强(RAG,能查外部数据辅助分析)的系统,比如Data Agent+GraphRAG。
资讯配图

研究人员也提供了对于不同基础模型和智能体架构的全面测试:

资讯配图

团队还尝试去对每种数据智能体进行计算资源拆解,统计了数据智能体每个阶段的耗时和总体系统延迟:

资讯配图

测试后发现:

总结一下就是,没有完美的Data智能体,有的快但复杂任务拉胯,有的准却费钱又慢,选的时候要看需求。

而FDABench的作用,就是帮你清楚测出哪个系统最适合你的需求。

论文地址:https://arxiv.org/pdf/2509.02473
代码地址:https://github.com/fdabench/FDAbench


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试 音频
more
SK海力士美光HBM4本月最终测试
边缘 AI 动态电流测试痛点:这场研讨会给你答案
纯电动飞行汽车Model A加州测试运营,公路行驶续航达354公里,空中飞行续航为177公里
【封装测试】国产13家先进封装与测试上市公司2025上半年市场表现分析
通过动态和静态测试保障AUTOSAR系统的软件质量
小米YU7新车贴有“测试车”痕迹,高管回应“深表歉意”!
澳大利亚赛车 eVTOL 获准进行驾驶飞行测试
第19届中国商用车产品测试9月15日重庆启动
AI也邪修!Qwen3改Bug测试直接搜GitHub,太拟人了
Nigel领衔,NI Days 2025邀您共探AI+测试新纪元
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号