谷歌 AI 的新突破:机器学习工程智能体 MLE-STAR

智能情报所 2025-08-10 16:07

资讯配图

谷歌 AI 近日发布了一款名为 MLE-STAR 的机器学习工程智能体,它能够自动化处理多种复杂的人工智能任务,展现了卓越的能力。

通过巧妙融合网络搜索的广博智慧与手术刀般精准的代码微调,MLE-STAR 在 Kaggle 的 MLE-Bench-Lite 竞赛中,成功斩获了 63% 的奖牌。

它的出现,直指当前机器学习工程领域的核心痛点:工程师们不得不陷入繁琐、枯燥且无休止的手动试错循环

相比之下,现有的许多智能体仍固守于 scikit-learn 等通用库的默认设置,遇到问题时只会全盘重写脚本,从未深入诊断并修复真正影响性能的关键模块。

核心能力揭秘

MLE-STAR 的强大之处在于其系统化的工作流程:

它首先从网络中精准捕获与任务相关的模型,然后锁定关键代码区域,进行持续迭代优化,直至性能饱和,整个过程完全无需人工干预

在多轮尝试后,它会将效果最佳的方案融合成一个统一的解决方案,并启动内置的检查机制,主动发现并规避代码错误、数据泄露及潜在的许可证风险。

实战表现惊人

在一项涵盖 22 个 Kaggle 竞赛的严格测试中(每个竞赛均尝试 3 次),搭载了 Gemini-2.5-Pro 的 MLE-STAR 在近三分之二的挑战中成功赢得奖牌。

这一成绩是过往基准水平的三倍。即便是搭载了轻量级 Gemini-Flash 模型的版本,其表现也达到了基准水平的两倍。

告别过去的痛点

在 MLE-STAR 问世之前,构建一个高性能模型,往往意味着在海量的 Kaggle 历史项目中漫无目的地搜寻,猜测哪种特征工程技巧可能有效。

一旦某次尝试失败,工程师们又不得不推倒重来。这种低效的模式导致了模型流水线的深度不足,也极大地拖慢了创新和迭代的速度。

网络搜索:创新的起点

MLE-STAR 的工作流程始于网络搜索。它会主动寻找与当前任务匹配的高质量代码和前沿论文,为后续工作提供坚实的起点。

智能体会将每个搜索结果迅速提炼为一张简明的模型卡片,抓取核心示例代码,快速构建出第一个可执行的初始脚本。

这种从最新资源中汲取灵感的方式,使其能够跳出思维定势。例如,在处理图像任务时,它可能会选择从 EfficientNet 或 ViT 出发,而不是停留在多年前的 ResNet

宏观架构:迭代与聚焦

资讯配图

在获得首次评估分数后,智能体会立刻进行一次严谨的消融测试。它会依次关闭流水线中的各个组件,敏锐地捕捉由此引发的性能下降。

那个对模型性能影响最大的组件,将自动成为下一轮迭代的核心优化目标。

随后,大语言模型会针对这一特定代码块,生成三至五个具体的优化方案。智能体逐一测试,保留最佳方案,并以此为基础开启新一轮循环。

这种高度聚焦的策略,彻底避免了以往那种“推倒重来”的混乱与低效,确保每一次迭代都在深度挖掘潜在的性能提升空间,直至收益饱和。

更智能的模型集成

在最后的集成阶段,MLE-STAR 摒弃了简单的加权平均法,转而追求一种更为智能的策略。

它会让大语言模型设计一套精巧的集成方案,并进行实测验证。如果性能提升未达预期,方案将被果断否决并重写。

经过数轮「提出-评估-优化」的闭环迭代,多个原本独立的模型脚本,最终会收敛为一个性能卓越的混合模型,其效果通常能超越任何一个单一的候选模型

资讯配图

参考资料:https://research.google/blog/mle-star-a-state-of-the-art-machine-learning-engineering-agents/


一键三连点赞」「转发」「小心心

欢迎在评论区留下你的想法!


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI AR 机器学习
more
【报告】教育专题四:微软教育AI报告2025(附PDF下载)
分支动态丨CAAI 机器博弈专委会走进祁门  助力基层干部拥抱智能时代
本体&AI视觉&工艺系统,解锁船舶制造高效焊接 | 报名通道
硬件只是入场券:AI可穿戴的百万销量背后,软件与场景才是终极战场
物理学「AlphaGo时刻」?40年未竟之事被AI一举攻破,顶尖物理学家集体傻眼
驱动 AI 数据中心热潮的五大核心要素
英伟达回应15%“AI芯片输华税”:遵守规则
快讯|京东重磅宣布:投入超100亿元;世界首台自动巡航杂交授粉育种机器人研制成功;全球首个AI神经网络电子皮肤发布等
张笑宇:我们相对于AI,就是史前动物
【报告】教育专题三:2025AI赋能教育行业发展趋势报告(附PDF下载)
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号