首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽

AI生成未来 2025-09-11 00:01
点击下方卡片,关注“AI生成未来

如您有工作需要分享,欢迎联系:aigc_to_future

转载自:量子位

如有侵权,联系删稿

数据智能体到底好不好用?测评一下就知道了!

南洋理工大学、新加坡国立大学携手华为开源推出首个专门针对数据智能体(Data Agents)异构混合数据分析的综合性基准测试FDABench

该基准横跨50+数据领域、设置了多种难度等级和任务类型,还独创了Agent-Expert协作框架,确保测试用例质量和数据一致性,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式。

资讯配图

团队使用FDABench对各种数据智能体系统进行了评估,发现每个系统在响应质量、准确性、延迟和token成本方面都表现出独特的优势。

下面详细来看。

数据库、PDF、视频、音频异构数据源一网打尽

面对数据驱动决策的需求日益增长,这催生了对能够整合结构化和非结构化数据进行分析的数据智能体的迫切需求。

资讯配图
Data Agent 样例

资讯配图Data Agent System架构

尽管数据智能体Data Agents在让用户执行复杂分析任务方面展现出潜力,但该领域仍存在三个关键局限性:

为应对这些挑战,团队提出了FDABench,这是首个专门为评估多源数据分析场景中的智能体而设计的数据智能体基准。

资讯配图FDAbench概览

这个基准涵盖了2007个不同的测试任务,覆盖50多个领域,比如金融、电商,还有简单、中等、难三种难度。 推理所需数据包括结构化数据库、PDF文档、视频、音频等异构数据源。

资讯配图

任务类型也分三种:单选题(比如算具体数值)、多选题(比如选多个正确结论,包含具体数值和综合报告推理)、写报告(比如整合数据出分析报告),能全面测数据智能体的能力。

资讯配图FDABench样例

团队还设计了统一Agent-Expert协作框架,同时支持Data Agent、RAG、语义算子以及四种典型Data Agent工作流模式(规划Planning、工具使用Tool-use、反思Reflection、多智能体Multi-Agent),可无缝集成不同Data Agent系统架构。

不管数据智能体是靠“提前规划步骤”、“调用工具”、“自我修正”还是“多智能体协作”工作,都能兼容测试,不用换个数据智能体就重新搭测试框架。

研究人员用FDABench测试了市面上常见的几种数据智能体。

一类是通用的数据分析系统,比如能生成财务报告的DAgent、能处理多模态数据的Taiji;

资讯配图
一类是擅长语义理解的语义算子系统,比如能精准处理用户自然语言查询的LOTUS;
资讯配图
还有一类数据智能体Data Agent是带检索增强(RAG,能查外部数据辅助分析)的系统,比如Data Agent+GraphRAG。
资讯配图

研究人员也提供了对于不同基础模型和智能体架构的全面测试:

资讯配图

团队还尝试去对每种数据智能体进行计算资源拆解,统计了数据智能体每个阶段的耗时和总体系统延迟:

资讯配图

测试后发现:

总结一下就是,没有完美的Data智能体,有的快但复杂任务拉胯,有的准却费钱又慢,选的时候要看需求。

而FDABench的作用,就是帮你清楚测出哪个系统最适合你的需求。

论文地址:https://arxiv.org/pdf/2509.02473
代码地址:https://github.com/fdabench/FDAbench


技术交流

加入「AI生成未来社区」群聊,一起交流讨论,涉及 图像生成、视频生成、3D生成、具身智能等多个不同方向,备注不同方向邀请入群!可添加小助手备注方向加群!

资讯配图

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
测试 音频
more
真实音频场景,大模型集体挂科!首个原生语音基准MultiChallenge
开盘大涨112%!上海冲出港股“AI音频芯片第一股”,年销4.7亿颗芯片
ROG联名HiFiMAN:电竞顶流遇上HiFi老炮,游戏耳机成为音频大厂新战场?
首个实时交互音频大模型Audio-Interaction问世!南洋理工等团队开启实时“感知-决策-响应”的音频交互新范式
Qwen深度研究一夜升级!可生成网页和音频播客,新模型能认医生手写体
清华大学x生数科技:从波形到隐空间,AudioLBM引领音频超分新范式
AI 技术大爆炸时代,一颗小小的 TI 音频芯片藏着“改变世界”的潜力
哈曼AudioworX集成赛轮思音频AI全面提升车载体验
首个Data Agent基准测试来了!2007个测试任务将数据库、PDF、视频、音频异构数据源一网打尽
谷歌重返智能眼镜战场:联手三星与时尚巨头,今秋推出AI音频眼镜
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号