首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

AI生成未来 2025-09-11 00:01
点击下方卡片,关注“AI生成未来

如您有工作需要分享,欢迎联系:aigc_to_future

转载自:量子位

如有侵权,联系删稿

数据智能体到底好不好用?测评一下就知道了!

南洋理工大学、新加坡国立大学携手华为开源推出首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试FDABench

该基准横跨50+数据领域、设置了多种难度等级和任务类型,还独创了Agent-Expert协作框架,确保测试用例质量和数据一致性,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式。

资讯配图

团队使用FDABench对各种数据智能体系统进行了评估,发现每个系统在响应质量、准确性、延迟和token成本方面都表现出独特的优势。

下面详细来看。

数据库、PDF、视频、音频异构数据源一网打尽

面对数据驱动决策的需求日益增长,这催生了对能够整合结构化和非结构化数据进行分析的数据智能体的迫切需求。

资讯配图
Data Agent 样例

资讯配图Data Agent System架构

尽管数据智能体Data Agents在让用户执行复杂分析任务方面展现出潜力,但该领域仍存在三个关键局限性:

为应对这些挑战,团队提出了FDABench,这是首个专门为评估多源数据分析场景中的智能体而设计的数据智能体基准。

资讯配图FDAbench概览

这个基准涵盖了2007个不同的测试任务,覆盖50多个领域,比如金融、电商,还有简单、中等、难三种难度。 推理所需数据包括结构化数据库、PDF文档、视频、音频等异构数据源。

资讯配图

任务类型也分三种:单选题(比如算具体数值)、多选题(比如选多个正确结论,包含具体数值和综合报告推理)、写报告(比如整合数据出分析报告),能全面测数据智能体的能力。

资讯配图FDABench样例

团队还设计了统一Agent-Expert协作框架,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式(规划Planning、工具使用Tool-use、反思Reflection、多智能体Multi-Agent),可无缝集成不同Data Agent系统架构。

不管数据智能体是靠“提前规划步骤”、“调用工具”、“自我修正”还是“多智能体协作”工作,都能兼容测试,不用换个数据智能体就重新搭测试框架。

研究人员用FDABench测试了市面上常见的几种数据智能体。

一类是通用的数据分析系统,比如能生成财务报告的DAgent、能处理多模态数据的Taiji;

资讯配图
一类是擅长语义理解的语义算子系统,比如能精准处理用户自然语言查询的LOTUS;
资讯配图
还有一类数据智能体Data Agent是带检索增强(RAG,能查外部数据辅助分析)的系统,比如Data Agent+GraphRAG。
资讯配图

研究人员也提供了对于不同基础模型和智能体架构的全面测试:

资讯配图

团队还尝试去对每种数据智能体进行计算资源拆解,统计了数据智能体每个阶段的耗时和总体系统延迟:

资讯配图

测试后发现:

总结一下就是,没有完美的Data智能体,有的快但复杂任务拉胯,有的准却费钱又慢,选的时候要看需求。

而FDABench的作用,就是帮你清楚测出哪个系统最适合你的需求。

论文地址:https://arxiv.org/pdf/2509.02473
代码地址:https://github.com/fdabench/FDAbench


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试 音频
more
让音频信号更好听的放大器;医疗 / 成像 / 通信全胜任四通道高精度 ADC;助力新能源电动车电压向800V迈进的放大器
芯报丨音频AI芯片公司波洛斯完成数千万元A轮融资
MEMS 与模块化平台推动音频设计实现突破性创新
AI玩具爆发,音频编解码器如何满足语音交互需求
刚刚,豆包连发多款大模型:让 DeepSeek更好用,音频版 Sora 惊艳全场
AVE Speech:大规模音频、唇部视频与肌电信号的中文多模态语音数据集
AI音频生成重要突破!超10秒精准可控免训练,清华×生数科技最新研究被ACM顶会收录
【今晚七点开播!】音频稳压器发展趋势与特瑞仕新品发布!
可灵击穿「多模态视频生成」,HuMo大一统“文本+图像+音频”,斩获多项SOTA!
零失真+50MHz带宽!德州仪器OPA365探索更“好听”的音频信号世界
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号