ARC 奖项基金会于 2025 年 7 月 18 日,发布了 ARC-AGI-3 基准的预览版,它也被称为交互式推理基准。
这次预览版推出了三个基于游戏的交互式任务,核心目的是为了测试人工智能的流体智力,即其快速学习和适应新任务的本领。
该项目于 2025 年初启动开发,目前发布的预览版包含 6 个游戏,并计划在 2026 年全面推出。
ARC-AGI-3 基准的测试结果显示,人类能在五分钟内轻松攻克全新的网格世界游戏,而最前沿的AI模型得分依然是零。
此次预览版包含的 6 个谜题,都要求智能体在无任何提示的条件下,自主完成探索、规划和记忆。
竞赛对所有人开放,只要在单张 RTX 5090
显卡、1000 美元 API 费用和 8 小时运行时间的严格限制下,就能构建学习器,争夺 7500 美元的奖金。
ARC-AGI-3 作为 ARC 系列人工智能基准的延续,具有以下特点:
专注于对新事物的泛化与适应能力。 对人类而言轻而易举,对人工智能却极为困难。 完全基于核心知识先验构建,无需任何其他领域的特定知识。
新基准的核心要点
首要焦点是智能体能力。它要求 AI 具备探索、学习新技能和运用记忆解决问题的综合能力,这也正是当前 AI 得分为零而人类满分的差距所在。
交互形式是其一大创新。不同于以往,ARC-AGI-3 采用动态游戏挑战,智能体必须通过编写代码和生成子智能体来达成目标。
推动开源是另一目的。随预览版发布了总奖金一万美元的智能体竞赛和配套的 API,旨在激励社区开发开源解决方案。
最终目标是通过这些无法依赖暴力破解、亟需高效类人推理能力的任务,为真正的AGI研究指明方向。
人类能够轻松通过所有测试,这种巨大的能力差距正是该基准的核心意义所在。
创造者认为,一个好的基准必须能轻易被人类解决,这样才能有效揭示当今语言模型在灵活思维方面的根本缺陷。
在每个游戏中,智能体被置于一个微小的网格世界,没有任何任务描述、奖励信号或行动指南。
智能体必须自行探索,观察行为引发的变化,并以此构建因果记忆,最终将零散的洞察串联成一个多步骤计划,以达成隐藏的胜利条件。
任务设计融合了工具使用、心智理论、空间推理和长远期目标等多种挑战,虽借鉴了经典雅达利游戏的研究,却摒弃了所有硬编码的提示。
学习的发生并非在单次冗长的运行中,而是通过反复试错,这恰好模仿了人类通过多次尝试来优化策略的过程。
基准衡量的核心是样本效率,即用更少的重试和行动获得更高的分数。
这激励着设计者去构建懂得反思、能将经验压缩为规则并举一反三的智能体,而不是只会死记硬背像素布局的机器。
为了绝对公平,所有参赛作品都只有 8 小时的实际运行时间。
参赛者可选择使用一块用于自托管代码的 RTX 5090
显卡,或总额不超过 1000 美元的云端 API 调用。
任何超支行为都将导致参赛资格立即作废。只有排名前十的智能体能进入最终的非公开测试,这意味着暴力搜索毫无出路,聪明的探索才是唯一解法。
目前像 o3 和 Grok 4 这类前沿的聊天驱动型智能体,几乎在测试开始的瞬间就已宣告失败。
因为它们只会等待永远不会出现的文本指令,过度依赖思维链提示,而完全忽略了来自环境的直接反馈。
缺乏内置的物理先验和情景记忆,使它们只会漫无目的地游荡或重复无效操作,这再次证明了:庞大的语言规模不等于真正的适应能力。
本次预览赛将持续到 2025 年 8 月 10 日,冠军将获得 5000 美元奖金,并需在 8 月 11 日前开源其代码。
包含约 100 个游戏的完整基准套件将于 2026 年发布。
组织者期望,当某个智能体的学习速度能与人类并驾齐驱时,该基准将成为宣告通用人工智能时代到来的北极星标准。
如何运行
首先,从 ARC-AGI-3-Agents
代码仓库或其 Hugging Face 镜像下载 SDK 和环境。
然后,使用 uv
工具安装相关依赖,将 .env-example
文件复制为 .env
,并填入你的 ARC_API_KEY
。
最后,在一个预览游戏中运行随机基线,确认系统工作正常。接下来,你可以换上自己开发的、能够在多次重试中学习的智能体,并在 3 个公开的网格世界中进行测试。
请确保在规定资源限制内完成评估。当分数达到预期后,在 2025 年 8 月 10 日前提交代码和日志,并在 11 日前开源,以保留获奖资格。
官网:https://arcprize.org/arc-agi/3/
代码仓库:https://github.com/arcprize/ARC-AGI-3-Agents/tree/main
竞赛页面:https://arcprize.org/competitions/arc-agi-3-preview-agents/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!