小模型逆袭!复旦&创智邱锡鹏团队造出「世界感知」具身智能体,代码数据完全开源!

具身智能之心 2025-07-17 08:00

点击下方卡片,关注“具身智能之心”公众号


作者丨Junhao Shi等

编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

——开源LVLM新框架WAP登顶EmbodiedBench榜单

1. 引言(Introduction)

视觉-语言-大模型(LVLMs)正迅速成为具身规划领域的新核心,但现有方法大多采用环境无关的模仿学习:把一句简化指令直接映射到动作序列,训练时既不关心房间布局,也不回顾历史观测。一旦遇到陌生场景、多步目标或含糊措辞,模型便“盲人骑瞎马”,要么过度依赖外部反馈,要么陷入重复错误。

为破解这一瓶颈,复旦大学与上海创新研究院提出 World-Aware Planning Narrative Enhancement(WAP)。核心思想是:

  1. 在数据层面注入四维认知叙事(视觉、空间、功能、句法),让模型先“看得全”再“想得深”;
  2. 采用闭环观察(仅 RGB + 指令,无任何动作成功信号)和三阶段课程学习,逐级培养环境理解与长程推理能力。

在 EB-ALFRED 基准上,7B 级开源 Qwen2.5-VL 成功率由 2 → 62.7(+60.7pp),超越 GPT-4o 与 Claude-3.5-Sonnet,验证了世界感知对高水平规划的决定性作用。


2. 相关工作(Related Work)

WAP 与现有工作最大区别:在数据层显式绑定指令-环境上下文,且全程仅靠视觉闭环,无需特权信息。


3. 技术方法(Method)

3.1 问题定义

给定自然语言指令 I 与按时间排序的第一人称观测序列,模型需预测下一步动作。难点在于:

3.2 四维认知叙事增强

维度
目标
示例(原 → 增强)
视觉 Visual
物体外观
“放刀进盒”→“放 20 cm 银色厨刀 入蓝色塑料盒”
空间 Spatial
精确定位
“…进柜子”→“…进 水池右侧贴墙的白柜
功能 Functional
工具-对象抽象
“放喷壶”→“放 用于喷洒的容器
句法 Syntactic
复杂指代
“放生菜进冰箱”→“那颗洗净的生菜,记得冷藏”

生成后通过 自验证器 判定与原任务等价,保证质量。

3.3 step-wise推理标注

对轨迹中每个动作生成理由,包括所见、指令关联与全局目标贡献,为模型提供显式“思考链”监督。由此得到

3.4 三阶段课程学习

  1. Base:原始指令-轨迹对,学基础感知-动作映射;
  2. Env-Aware:加入视觉+空间增强,学习场景理解;
  3. Concept-Aware:进一步加入功能+句法+全链推理,攻克高阶语义与长程规划。

损失采用动作交叉熵,整过程仅用 RGB观测,无特权反馈。


4. 实验(Experiments)

4.1 主结果

4.3 消融实验

4.4 案例分析

指令:“把冰镇的苹果切块后扔进垃圾桶”

WAP-Qwen 拆解出 18 步(取刀-切-冷藏-丢弃),且中途安全放置刀具;基线模型直接将整苹果丢桶导致失败,显示 WAP 对隐式条件、因果顺序的掌控优势。


5. 结论与展望

WAP 显式把“世界知识”写进数据与推理链,用四维叙事 + 课程学习让小规模开源 LVLM 在纯视觉闭环下刷新 EB-ALFRED 纪录,首次越级击败商业大模型。

未来工作:

  1. 下沉连续控制,连接低层执行;
  2. 拓展工业/户外动态场景;
  3. 探索自监督叙事自进化,实现数据-模型闭环迭代。

一句话:WAP 证明——当机器人“大模型”真正“看懂世界”后,规划不必靠外挂,也能技高一筹
论文标题:World-aware Planning Narratives Enhance Large Vision-Language Model Planner
代码开源地址:https://github.com/sjh0354/World-Aware-Planning
数据集开源地址:https://huggingface.co/datasets/Michael0354/World-Aware-Planning


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号