AIR科研|打造EscapeCraft:用“密室逃脱”挑战多模态大模型的推理智商!


     

     

近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。但你是否想过:它们真的“看懂”并“想通”了吗?这些模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?

清华大学智能产业研究院(AIR)执行院长刘洋教授团队,联合清华大学计算机系、复旦大学带来重磅新作——EscapeCraft:一个3D密室逃脱环境,让大模型像真人一样“动脑逃生”,用于评估多模态大模型在视觉环境中,完成复杂任务推理的能力。测评结果却意外频出:模型常常看到了门,却一直绕着墙走;捡起钥匙,却忘了怎么用;甚至有模型想去“抓”沙发,理由是“可能有暗格”……这不是个别翻车,而是系统性的“看见不代表理解”。即便是 GPT-4o 这样的明星模型,也只有少部分子任务是真的想明白了完成的,其它全是歪打正着。

近年来,多模态大模型(MLLMs)发展迅猛,从看图说话到视频理解,似乎无所不能。但你是否想过:它们真的“看懂”并“想通”了吗?这些模型在面对复杂的、多步骤的视觉推理任务时,能否像人类一样推理和决策?
清华大学智能产业研究院(AIR)执行院长刘洋教授团队,联合清华大学计算机系、复旦大学带来重磅新作——EscapeCraft:一个3D密室逃脱环境,让大模型像真人一样“动脑逃生”,用于评估多模态大模型在视觉环境中,完成复杂任务推理的能力。测评结果却意外频出:模型常常看到了门,却一直绕着墙走;捡起钥匙,却忘了怎么用;甚至有模型想去“抓”沙发,理由是“可能有暗格”……这不是个别翻车。而是系统性的“看见不代表理解”。即便是 GPT-4o 这样的明星模型,也只有少部分子任务是真的想明白了完成的,其它全是歪打正着。
     
     

项目主页https://thunlp-mt.github.io/EscapeCraft

GitHub地址https://github.com/THUNLP-MT/EscapeCraft

本次成果被计算机视觉顶会ICCV 2025录用,作者包括王梓玥、董宇睿、罗富文、阮珉源、程志立、陈驰、李鹏、刘洋,其中王梓玥和董宇睿为共同一作。

图一:论文首页

EscapeCraft环境

  • 沉浸式互动环境,灵感源自密室逃脱

研究团队打造了可自动生成、灵活配置的 3D 场景 EscapeCraft,模型在里面自由行动:找钥匙、开箱子、解密码、逃出房间……每一步都需整合视觉、空间、逻辑等多模态信息。

EscapeCraft以逃出房间为最终目的,重点评测逃脱过程中的探索和决策行为、推理路径等。支持不同房间风格、道具链长度与难度组合,还可扩展到问答、逻辑推理、叙述重建等任务。它是一个高度灵活、可持续迭代的通用评测平台,也可以为未来的智能体、多模态推理、强化学习等方向研究提供基础环境、数据和奖励设置方面的支持。

图二:EscapeCraft支持自由订制和扩展想要的难度等级。不同难度等级下所需的逃脱步骤有所不同。

图三:对于可扩展性的说明。在该案例中,我们将线索放置在了墙上而不是箱子中,考验模型对于环境信息的接收和处理能力,除此之外线索在房间的摆放位置也可自由选择。在第一个场景中,线索位于靠近出口的墙上,此时GPT-4o的表现更加出色,可以对线索进行正确利用。然而,当我们把线索移动到距离出口较远的墙上,GPT-4o开始不断重复历史路径,无法对正确理解和利用线索,导致逃脱失败。

模型推理和过程评测

  • 沉浸式环境 + 多模态感知 + 自由交互

EscapeCraft 以真实密室逃脱为灵感,构建了一个可自动生成3D场景的评测环境,要求模型靠视觉线索与环境交互自主完成任务。找钥匙、解密码、开门逃生,每一步都要求“动脑子”!下图为Gemini-1.5-Pro在其中一个密室的逃脱表现。

图四:一个真实逃脱路径的示例。第0步(左下角的0号图)为模型初始位置视角,第15步(右下角的15号图)为最后“开门”时的视角。

与传统只看“答对没”的评测不同,EscapeCraft 关注整个任务完成过程:模型是否自主探索?有没有重复犯错?道具用得对不对?真正测的是模型的“类人推理过程”。论文重点弥补以结果为导向的评估缺陷,设计了多个衡量视觉感知、多模态推理、环境探索和工具获取和利用的过程的创新指标:

  1. Intent-Outcome Consistency(意图与结果一致性):衡量模型与环境的交互结果是否和的模型的交互意图一致,即模型是否在正确的位置做正确的事

  2. Prop Gain / Grab Ratio / GSR:刻画模型在探索和推理过程中的行为模式,反映模型的交互质量、推理效率和智能程度。

评测结果显示:GPT-4o 在 Difficulty-3 中仅有 26.5% 的子目标达成是“真正理解后完成的”,其余大多为偶然成功(比如想拿电视却误抓到关键道具)。

研究还发现大量有趣失败案例。例如:

团队据此将错误拆分为两类:

其中 Claude 3.5 的错误中,61.1% 属于推理问题,38.9% 属于视觉问题。这说明即便模型“看到了”,不代表它“想清楚了”。

谁能逃离“密室”?

模型表现一览

图五:单房间逃脱结果统计,包括3个不同难度级别(数值越大越难)。

研究评测了包括 GPT-4o、Gemini-1.5 Pro、Claude 3.5、LLaMA-3.2、Qwen、Phi-3 等热门模型,发现:

AIR长期招聘人工智能领域优秀科研人员

点这里关注我们


关于AIR



清华大学智能产业研究院(Institute for AI Industry Research, Tsinghua University,英文简称AIR,THU)是面向第四次工业革命的国际化、智能化、产业化的校级研究机构。AIR的使命是利用人工智能技术赋能产业升级、推动社会进步。通过大学与企业创新双引擎,突破人工智能核心技术,培养智能产业领军人才,推动智能产业跨越式发展。

AIR于2020年由多媒体及人工智能领域的世界级科学家、企业家张亚勤院士创建。

智慧交通(AI+Transportation)、智慧物联(AI+IoT)、智慧医疗(AI+Life Science)是清华大学智能产业研究院的三个重点研发方向。

往期精彩:
祝贺!AIR院长张亚勤荣获中国政府友谊奖
关于AI for Science的一些观点
AIR学术|微软亚洲研究院杨蛟龙:结构化三维生成

SUMMER@AIR|2025夏令营开始报名啦!

AIR人物 | 智启未来:博士后顾伟斌、贾寅君、龙思宇、王皓加入AIR!

AIR学术|香港科技大学饶安逸:弥合人类与计算机在视频制作中表征差异的鸿沟

AIR科研|携手Deepseek提出推理时可扩展通用奖励建模新方法,性能领先参数量大数倍模型

张亚勤:Thriving in the Age of AI

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号