CVPR2025｜想让机器人像人类一样适应动态交通？纽约大学AI4CE组提出CityWalker，用海量视频优化实体城市导航

全文约 2600 字，预计阅读时间 7 分钟

一、研究背景：城市导航的现实困境与技术缺口

（一）实际场景挑战

在动态城市环境中，配送机器人、自动驾驶出租车等实体智能体的导航需同时具备 空间推理能力（如路径规划、障碍物避让）与 规则遵循能力（交通信号灯识别、社会规范适配）。然而，现有视觉导航方法在 无地图场景（如临时施工路段）或 非街道场景（如社区内部道路）中表现薄弱，限制了自主智能体的落地应用。

（二）人类与现有技术的差异

人类依赖地图工具（如谷歌地图）获取路径点，但实际导航需复杂空间感知（如判断行人动向、理解交通信号逻辑）。现有强化学习/模仿学习方法多在 静态受控环境（如模拟虚拟街道）中优化，难以覆盖真实城市的动态约束：

环境复杂性：交通规则、社会规范（如避让行人）等细微约束难以在模拟环境中完整复现；
数据局限性：远程操作演示数据集覆盖场景少（如极端天气、复杂路口），无法支撑泛化训练。

（三）场景可视化说明

图中路线的彩色标记点（交叉路口、障碍物等）对应城市导航的核心挑战场景：

动态因素：交通信号灯变化、道路临时封锁、行人近距离穿行；
社会规范：人群避让、路口让行等非显式规则。

右侧缩略图展示真实世界中这些场景的表现，直观体现智能体需处理的复杂观测（如拥堵路况下的绕行决策）。现有技术（如传统强化学习模型）因缺乏大规模真实场景数据，难以在这些场景中稳定运行。

二、核心方案：CityWalker模型框架——数据驱动的导航突破

（一）数据来源与处理：大规模、低成本的训练基础

CityWalker摒弃传统“小规模标注数据”依赖，采用 2000+小时互联网城市视频（行走、驾驶视角），覆盖多地理区域、天气条件，自然捕捉导航复杂性（行人交互、交通规则遵循等）。

动作监督提取：高效替代专有VLM

现有方法依赖 视觉语言模型（VLM） 生成动作标签（如“左转”“加速”），但VLM训练成本高、扩展性差。CityWalker创新采用 视觉里程计（VO, visual odometry）模型 提取 轨迹姿态伪标签（如相邻帧的位姿变化），虽存在噪声，但可通过并行化处理大规模视频（流程如下）：

视频输入VO模型，输出帧间相对位姿；
位姿序列作为“动作监督”，驱动模仿学习。

跨域通用性验证

仅用驾驶视频训练的模型，可直接迁移至四足机器人（如Unitree Go1）；
融合行走+驾驶数据的跨域训练，性能优于单一数据（如“近距离行人避让”场景，跨域模型到达率提升12% ）。

（二）模型架构与训练：Transformer驱动的时空推理

CityWalker以 Transformer 为核心，输入包含：

历史观测：过去5帧图像（经预训练DINOv2模型编码，权重冻结以避免过拟合）；
轨迹与目标：过去5个位置坐标（极坐标转换+傅里叶编码）、目标位置坐标。

核心流程

编码层：图像特征（DINOv2输出）与坐标嵌入（傅里叶编码）融合，生成时空令牌；
Transformer层：处理时空令牌，预测未来5步的“特征令牌”（包含动作与状态信息）；
输出层：

动作头：解码未来欧氏空间动作（如位移方向、距离）；
到达头：预测是否到达子目标（二分类任务）。

损失函数设计

引入 特征幻觉损失（），通过最小化“预测未来帧特征”与“真实未来帧特征”的MSE（公式：，为未来帧数量，为预测特征，为真实特征），强制模型学习精准的未来状态预测。

总损失函数为多任务加权和：

：动作位移的L1损失（衡量位置误差）；
：动作方向的角度损失（公式：，为步数，为真实方向，为预测方向）；
：到达状态的交叉熵损失（衡量子目标到达预测精度）；
：权重系数（实验中设为1、0.5、1、0.2，确保损失量级匹配）。

三、实验设计与结果：多维度验证技术优势

（一）实验设置

基线模型：对比GNM（传统强化学习）、ViNT（视觉导航Transformer）、NoMad（无地图导航模型），部分模型微调适配任务；
评估数据：15小时专家远程操作数据（纽约市采集，6小时微调、9小时测试），由四足机器人Unitree Go1搭载传感器（RGB相机、GPS、IMU ）记录；
关键场景：定义转弯（方向剧变）、路口（交通灯交互）、绕行（障碍物避让）、近距离（行人靠近）、人群（≥5人）5类场景，单独评估模型鲁棒性；
核心指标：

平均方向误差（AOE，动作角度偏差，单位°）；
最大平均方向误差（MAOE，轨迹中最严重的AOE，反映极端场景鲁棒性）；
到达率（成功到达子目标的比例）。

（二）核心实验结果

1. 离线性能：关键场景全面超越基线

显著优势：CityWalker在“近距离行人”场景到达率达90.6%（ViNT仅73% ），因模型从大规模视频中学到“渐进避让”策略（如缓慢减速、侧身绕行）；
方向控制：路口场景AOE仅12.3°，远低于ViNT的18.5°，体现对交通灯逻辑（如“绿灯直行、红灯转向” ）的精准理解。

模型	平均到达率	近距离场景到达率	路口场景AOE（°）	绕行场景MAOE（°）
GNM	58.3%	69.0%	22.1	25.7
ViNT	70.5%	73.0%	18.5	23.2
CityWalker	81.8%	90.6%	12.3	17.0

2. 真实部署：未知环境泛化能力强

在纽约市未见过的区域测试，CityWalker总体成功率77.3%（ViNT仅57.1% ），典型场景对比：

转弯场景：左转成功率62.5%（ViNT 25% ）、右转66.7%（ViNT 25% ），因模型学习到“提前变道、低速转弯”的真实驾驶逻辑；
动态适应：遇到临时道路封锁时，CityWalker能基于视频经验（如“借道人行道绕行” ）调整路径，而基线模型常因“无地图依赖”陷入停滞。

3. 数据规模与跨域价值

规模效应：训练视频从250小时增至2000小时，MAOE从21.3°降至15.2°（图4），证明大规模数据可覆盖更多长尾场景（如暴雨天气、夜间驾驶）；
跨域增益：融合行走+驾驶数据的模型，比单一驾驶数据模型MAOE降低2.8°（17.0°→14.2° ），因跨域数据补充了“行人密集区”“狭窄巷道”等场景知识。

4. 组件有效性：消融实验验证设计价值

微调增益：加入6小时专家数据微调，MAOE从17.0°降至15.2°，说明小规模专家数据可校准大规模视频的噪声（如VO模型的位姿误差）；
特征幻觉损失：去除后，模型收敛速度下降30%，AOE增加2.1°，证明其对未来状态预测的引导作用。

四、创新点与局限性：技术突破与优化方向

（一）核心创新

大规模数据利用：首次验证2000+小时网络视频可支撑城市导航训练，突破传统“标注数据依赖”瓶颈；
高效伪标签方案：视觉里程计替代VLM生成动作监督，成本降低90%+，且支持并行化处理；
跨域通用性：模型可从人类行走/驾驶视频迁移至四足机器人，跨域训练提升复杂场景鲁棒性。

（二）局限性与未来方向

GPS依赖：当前依赖iPhone GPS，定位噪声易导致轨迹偏移（如高楼遮挡场景）。未来需融合激光雷达、IMU实现多传感器定位；
绕行场景短板：复杂障碍物绕行（如施工区域）的MAOE仍达17.0°，需补充“机械臂操作”“临时路径规划”等视频数据。

五、技术对比与行业价值：重新定义实体导航范式

与现有技术相比，CityWalker实现三大突破：

维度	传统方法（如ViNT）	CityWalker
数据依赖	小规模标注数据（≤100小时）	2000+小时无标注网络视频
场景覆盖	静态/受控环境（模拟街道）	动态真实城市（含极端天气、复杂路口）
跨域能力	单一载体（如自动驾驶车）	跨载体迁移（车→四足机器人）
核心指标	平均到达率70.5%、路口AOE 18.5°	平均到达率81.8%、路口AOE 12.3°