斯坦福新成果：用「4D时空坐标系」重构机器人视觉认知，攻克跨视角一致性难题！ - 科技区角斯坦福新成果：用「4D时空坐标系」重构机器人视觉认知，攻克跨视角一致性难题！

「时间连贯性」与「跨视角几何一致性」兼顾

在机器人操作任务中，生成具有时空一致性的视频对机器人理解环境动态至关重要。现有模型要么生成的视频画面闪烁、物体形变，要么不同视角下的空间位置错乱，严重制约了机器人在复杂场景中的规划与交互能力。

为此，斯坦福大学&丰田研究院团队提出的几何感知4D视频生成模型，通过融合时间连贯性与3D几何一致性，实现了跨视图的精准视频预测。

该方法的核心在于利用跨视图点图对齐的几何监督机制，结合预训练的视频扩散模型，使生成的视频既能保持时间序列上的平滑过渡，又能在不同相机视角下维持物体的几何结构一致性。

我们开设此账号，想要向各位对【具身智能】感兴趣的人传递最前沿最权威的知识讯息外，也想和大家一起见证它到底是泡沫还是又一场热浪？

欢迎关注【深蓝具身智能】👇

流程说明

基于扩散的视频生成框架

目标：从短暂的历史视频帧中预测未来短暂的视频帧，从而得到连贯的视频预测生成能力。

该方案采用的方法是利用视频扩散框架模型——Stable Video Diffusion（SVD）框架，通过变分自编码器（VAE）将历史RGB视频帧投影到潜在空间，再利用 U-Net网络的扩散能力来预测未来潜在图像序列的特征表示，最终将这些特征表示解码为RGB序列帧。

基于扩散的视频生成框架微调过程：就是通过最小化扩散损失函数，使模型能够从含噪的输入中恢复出干净的潜在表示，从而实现时间序列上的连贯预测。

几何一致性监督

如图所示，该方案的使用2个不同视角的 RGB-D相机和来实现几何一致性监督。

▲4D视频生成并用于机械臂操作的流程©️【深蓝具身智能】编译

先对参考视角的历史点图用点图 VAE 进行编码，经潜扩散和Decoder 后生成未来点图；
同时,将第二视角的未来点图投影到坐标系下，生成投影点图序列,这些投影点图序列将被点图 VAE 编码成与对齐的潜在表示。

在训练时，对视角和投影视角的点图进行扩散，以求得最小化含噪的潜在表示和预测结果的差异。

该模型采用两个独立解码器，通过交叉注意力机制让的解码器通过提供的的几何线索来实现跨视角一致性，并且保障在推理过程中，无需输入相机位姿便可以从新视角预测出参考视角坐标系下的点图。

联合优化策略

预训练的视频扩散模型为预测动态场景提供了时间先验，而3D点图监督则强制跨视角图像之间保持几何一致性。

因此，利用预训练的视频模型，结合基于RGB的视频扩散损失和基于点图的3D一致性损失进行联合优化，便可以达到时空一致性的视频预测效果，其整体的损失函数可以表示成：

核心代码

接下来，让我们看看该方案的核心代码。

变分自编码器VAE的核心代码在sgm/models/autoencoder.py中的AutoencodingEngine。

编码器对应于sgm/modules/diffusionmodules/model.py 的Encoder。

编码器推理执行代码片段如下：

class Encoder(nn.Module):    def forward(self, x):            # timestep embedding            temb = None            # downsampling            if len(x.shape) == 5:                x = rearrange(x, "b t c h w -> (b t) c h w")            hs = [self.conv_in(x)]            for i_level in range(self.num_resolutions):                for i_block in range(self.num_res_blocks):                    h = self.down[i_level].block[i_block](hs[-1], temb)                    if len(self.down[i_level].attn) > 0:                        h = self.down[i_level].attn[i_block](h)                    hs.append(h)                if i_level != self.num_resolutions - 1:                    hs.append(self.down[i_level].downsample(hs[-1]))            # middle            h = hs[-1]            h = self.mid.block_1(h, temb)            h = self.mid.attn_1(h)            h = self.mid.block_2(h, temb)            # end            h = self.norm_out(h)            h = nonlinearity(h)            h = self.conv_out(h)            return h

解码器对应于sgm/modules/autoencoding/temporal_ae.py的VideoDecoder。

解码器推理执行代码片段如下：

class Decoder(nn.Module):    def forward(self, z, **kwargs):            # assert z.shape[1:] == self.z_shape[1:]            self.last_z_shape = z.shape
            # timestep embedding            temb = None
            # z to block_in            h = self.conv_in(z)
            # middle            h = self.mid.block_1(h, temb, **kwargs)            h = self.mid.attn_1(h, **kwargs)            h = self.mid.block_2(h, temb, **kwargs)
            # upsampling            for i_level in reversed(range(self.num_resolutions)):                for i_block in range(self.num_res_blocks + 1):                    h = self.up[i_level].block[i_block](h, temb, **kwargs)                    if len(self.up[i_level].attn) > 0:                        h = self.up[i_level].attn[i_block](h, **kwargs)                if i_level != 0:                    h = self.up[i_level].upsample(h)
            # end            if self.give_pre_end:                return h
            h = self.norm_out(h)            h = nonlinearity(h)            h = self.conv_out(h, **kwargs)            if self.tanh_out:                h = torch.tanh(h)            return h