大模型“天梯赛”来了,让Agent在Kaggle真实任务中进化|佐治亚理工、斯坦福开源

量子位 2025-07-26 17:01
小石不是小石头 投稿
量子位 | 公众号 QbitAI

当前最强大的大语言模型(LLM)虽然代码能力飞速发展,但在解决真实、复杂的机器学习工程(MLE)任务时,仍像是在进行一场“闭卷考试”。它们可以在单次尝试中生成代码,却无法模拟人类工程师那样,在反复的实验、调试、反馈和优化中寻找最优解的真实工作流。

为了打破这一瓶颈,来自佐治亚理工学院和斯坦福大学的研究团队正式推出了 MLE-Dojo,一个专为训练和评测大模型智能体(LLM Agents)设计的“交互式武馆”。它将LLM从静态的“答题者”转变为可以在一个包含200多个真实Kaggle竞赛的环境中,不断试错、学习和进化的“机器学习工程师”。

资讯配图

MLE-Dojo是一个专为机器学习工程设计的综合性Gym风格基准测试框架。与现有依赖静态数据集或单次评估的基准不同,MLE-Dojo提供了一个完全可执行的交互式环境,让AI智能体可以通过结构化的反馈循环,反复实验、调试并优化解决方案 。

在MLE-Dojo的竞技场上,团队对当前八个顶尖的LLM进行了全面评测。

结果显示,Gemini-2.5-Pro在综合Elo评分中拔得头筹,但即便是最强的模型,在自主生成长流程解决方案和高效解决复杂错误方面也仍然有提升空间 。

目前,团队已将MLE-Dojo的框架、基准和排行榜完全开源,旨在推动社区共同创新,加速下一代自主机器学习智能体的到来 。

一起来看详细内容。

现有问题与解决方法

团队通过深入分析发现,尽管现在已有多个针对LLM代码能力的基准,但它们普遍存在以下问题:

为了填补这一空白,MLE-Dojo应运而生。它不仅仅是一个“考卷”,更是一个能让AI智能体学习、成长和对战的“练功房”和“竞技场”。如下表所示,MLE-Dojo在交互性、训练支持和任务广度上全面超越了以往的基准。

资讯配图
表1:MLE-Dojo与其他MLE智能体基准的比较

MLE-Dojo:一个给AI Agent的真实“练功房”

MLE-Dojo的核心是一个连接AI智能体机器学习任务环境的标准化交互框架 。在这个框架中,智能体可以像人类工程师一样,通过一系列动作来解决复杂的Kaggle竞赛任务。

整个交互过程被建模为一个循环:智能体根据当前观察(Observation)做出动作(Action),环境执行该动作后,返回新的观察和相应的奖励(Reward) 。

资讯配图
图4:MLE-Dojo框架概览,展示了智能体与环境的交互循环

其主要贡献和特点可以概括为:

八大顶尖LLM同台竞技,谁是Kaggle之王?

为了全面、公正地评估各大顶尖LLM的机器学习工程能力,研究团队设计了一套多维度的综合评测体系,而非依赖单一指标。

多维度综合评测体系

综合性能对决

在这套严格的评测体系下,八大前沿LLM在50个评估任务上展开了激烈角逐。

资讯配图
图6 & 图1:八大前沿LLM在MLE-Dojo上的Elo综合评分及排名

Gemini-2.5-Pro综合实力登顶:在最关键的Elo综合评分中,Gemini-2.5-Pro展现出最强的竞争力,拔得头筹 。在衡量绝对性能的HumanRank分数上,它同样表现优异,例如在MLE-Lite任务集上超越了61.95%的人类选手 。

顶尖模型各有千秋:紧随其后的是DeepSeek-R1和o3-mini等模型,它们同样展现了作为机器学习智能体的强大实力和适应性,在各项指标中均名列前茅 。

深度分析:解码冠军策略

除了最终排名,MLE-Dojo的精细化数据还让我们得以深入剖析每个模型的行为模式和“性格”。

行动策略与模型“性格”:

分析发现,不同模型展现出迥异的解题策略。

例如,表现优异的o3-mini策略非常“激进”,超过90%的动作都是直接执行代码,展现出极高的自信 。

gpt-4o则相当“保守”,仅有约20%的动作是直接执行,花费了大量时间在初步验证上 。这种策略差异直接影响了它们的解题效率和最终表现。

失败率与稳健性分析:如下图所示,Gemini-2.5-Pro不仅性能领先,其在代码验证和执行中的总体失败率也是最低的 ,这表明其生成的代码不仅效果好,而且更加稳健可靠。相比之下,一些性能同样不俗的模型却伴随着更高的失败率 。

资讯配图
图12:各模型在任务中的平均失败率,Gemini-2.5-Pro的总体失败率最低

此项研究为评估和提升AI智能体的机器学习工程能力提供了一个强大的开源平台。通过模拟真实世界的挑战,并提供一个可以不断学习和进化的环境,MLE-Dojo将推动AI从一个“解题工具”向一个真正的“自主工程师”迈进,并最终对整个科学研究和工程领域产生深远影响。

项目主页:https://mle-dojo.github.io/MLE-Dojo-page/
排行榜:https://huggingface.co/spaces/MLE-Dojo/Leaderboard
论文:https://arxiv.org/abs/2505.07782
Github:https://github.com/MLE-Dojo/MLE-Dojo

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  —

资讯配图


🌟 点亮星标 🌟

科技前沿进展每日见

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
开源!智元机器人正式发布首个具身智能操作系统参考框架:“智元灵渠OS”
阿里开源电影级AI视频模型!MoE架构,5B版本消费级显卡可跑
稚晖君在WAIC主论坛发布“灵渠OS”开源计划
使智能体情商爆表直追GPT-4o!腾讯混元开源RLVER框架,融合RL与可验证情感奖励
资讯 | 荣耀 MagicGUI 大模型发布并开源;全球首款三涵道穿戴式载人飞行器亮相
全能高手+科学明星,全球领先开源科学多模态大模型『书生』Intern-S1发布
腾讯混元3D世界模型开源!一句话,一张图,造一个世界
开源Qwen一周连刷三冠,暴击闭源模型!基础模型推理编程均SOTA
文心开源服务站赋能DAY·广州站——携手广东省促进会共建区域AI服务新支点
“AI大神”李沐终于开源新模型,爆肝6个月,上线迅速斩获3.6k stars!
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号