小模型逆袭！复旦&创智邱锡鹏团队造出「世界感知」具身智能体，代码数据完全开源！ - 科技区角小模型逆袭！复旦&创智邱锡鹏团队造出「世界感知」具身智能体，代码数据完全开源！

点击下方卡片，关注“具身智能之心”公众号

作者丨Junhao Shi等
编辑丨具身智能之心
本文只做学术分享，如有侵权，联系删文

更多干货，欢迎加入国内首个具身智能全栈学习社区：具身智能之心知识星球(戳我)，这里包含所有你想要的。

——开源LVLM新框架WAP登顶EmbodiedBench榜单

1. 引言（Introduction）

视觉-语言-大模型（LVLMs）正迅速成为具身规划领域的新核心，但现有方法大多采用环境无关的模仿学习：把一句简化指令直接映射到动作序列，训练时既不关心房间布局，也不回顾历史观测。一旦遇到陌生场景、多步目标或含糊措辞，模型便“盲人骑瞎马”，要么过度依赖外部反馈，要么陷入重复错误。

为破解这一瓶颈，复旦大学与上海创新研究院提出 World-Aware Planning Narrative Enhancement（WAP）。核心思想是：

在数据层面注入四维认知叙事（视觉、空间、功能、句法），让模型先“看得全”再“想得深”；
采用闭环观察（仅 RGB + 指令，无任何动作成功信号）和三阶段课程学习，逐级培养环境理解与长程推理能力。

在 EB-ALFRED 基准上，7B 级开源 Qwen2.5-VL 成功率由 2 → 62.7（+60.7pp），超越 GPT-4o 与 Claude-3.5-Sonnet，验证了世界感知对高水平规划的决定性作用。

2. 相关工作（Related Work）

文本元数据 → 动作：早期方法依赖环境符号标签，缺乏视觉感知，难落地真实场景。
视觉管线级联：随后引入语义地图或分割网络，但需外部模块，部署复杂。
LVLM Planner：近期直接用大模型处理 RGB，却常借助“动作成功”“任务进度”等特权信号，与现实机器人脱节。

WAP 与现有工作最大区别：在数据层显式绑定指令-环境上下文，且全程仅靠视觉闭环，无需特权信息。

3. 技术方法（Method）

3.1 问题定义

给定自然语言指令 I 与按时间排序的第一人称观测序列，模型需预测下一步动作。难点在于：

部分可见、连续变化的环境；
长时依赖与隐式需求（如“冰镇后切片”）。

3.2 四维认知叙事增强

维度	目标	示例（原 → 增强）
视觉 Visual	物体外观	“放刀进盒”→“放 20 cm 银色厨刀入蓝色塑料盒”
空间 Spatial	精确定位	“…进柜子”→“…进水池右侧贴墙的白柜”
功能 Functional	工具-对象抽象	“放喷壶”→“放用于喷洒的容器”
句法 Syntactic	复杂指代	“放生菜进冰箱”→“那颗洗净的生菜，记得冷藏”

生成后通过自验证器判定与原任务等价，保证质量。

3.3 step-wise推理标注

对轨迹中每个动作生成理由，包括所见、指令关联与全局目标贡献，为模型提供显式“思考链”监督。由此得到

3.4 三阶段课程学习

Base：原始指令-轨迹对，学基础感知-动作映射；
Env-Aware：加入视觉+空间增强，学习场景理解；
Concept-Aware：进一步加入功能+句法+全链推理，攻克高阶语义与长程规划。

损失采用动作交叉熵，整过程仅用 RGB观测，无特权反馈。

4. 实验（Experiments）

4.1 主结果

Qwen2.5-VL +60.7 平均成功率提升，长程任务成功率 0→ 70，超越Claude-3.5等闭源模型；
InternVL3-8B 同样从 6→ 61.0，长程任务成功率 x17.5；
标准差STD更低 → 能力更平衡；

4.3 消融实验

仅视觉/空间增强：Avg 46.7，Std 17.1 → 过拟合感知，语义薄弱。
+部分推理：Avg 54.0，Std 9.3 → 能力趋稳但仍缺长程一致性。
完整四维 + 课程：62.7 / 6.3 → 兼顾性能与稳健。

4.4 案例分析

指令：“把冰镇的苹果切块后扔进垃圾桶”

WAP-Qwen 拆解出 18 步（取刀-切-冷藏-丢弃），且中途安全放置刀具；基线模型直接将整苹果丢桶导致失败，显示 WAP 对隐式条件、因果顺序的掌控优势。

5. 结论与展望

WAP 显式把“世界知识”写进数据与推理链，用四维叙事 + 课程学习让小规模开源 LVLM 在纯视觉闭环下刷新 EB-ALFRED 纪录，首次越级击败商业大模型。

未来工作：

下沉连续控制，连接低层执行；
拓展工业／户外动态场景；
探索自监督叙事自进化，实现数据-模型闭环迭代。

★
一句话：WAP 证明——当机器人“大模型”真正“看懂世界”后，规划不必靠外挂，也能技高一筹！
论文标题：World-aware Planning Narratives Enhance Large Vision-Language Model Planner
代码开源地址：https://github.com/sjh0354/World-Aware-Planning
数据集开源地址：https://huggingface.co/datasets/Michael0354/World-Aware-Planning