当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构

点击下方卡片，关注「3D视觉工坊」公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

星球内新增20多门3D视觉系统课程、入门环境配置教程、多场顶会直播、顶会论文最新解读、3D视觉算法源码、求职招聘等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

论文标题：Thinking with Camera: A Unified Multimodal Model for Camera-Centric Understanding and Generation
作者单位：S-Lab, 新加坡南洋理工大学；商汤科技；美国密歇根大学；德国马普所
论文链接：https://arxiv.org/abs/2510.08673
项目主页：https://kangliao929.github.io/projects/puffin/
代码链接：https://github.com/KangLiao929/Puffin
百万级图片-文本-相机三元组数据集：https://huggingface.co/datasets/KangLiao/Puffin-4M

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图2 图一：展示我们模型多样化能力的示意图。模型统一了以相机为中心的多模态理解与生成，支持空间想象，并实现灵活的跨视角应用如世界探索等

1.研究动机

（前言）人类如何观察并理解世界？我们会根据环境线索在空间中动态调整视觉系统，通过改变三维朝向和焦距，保持对周围环境的灵活感知。这样的能力使我们能够从任意视角中理解场景、猜想视野外的环境，并在脑海中重现一个具备自由视点的真实世界。

对机器而言，相机是与物理世界交互和实现空间智能的重要接口。一方面，通过图像理解相机几何，机器能够从二维投影中恢复复杂的三维结构，进而指导下游的自主定位和导航任务；另一方面，通过调节内外参数，相机还能提供灵活的物理控制，帮助空间内容的生成，从任意视角模拟世界的样貌。

然而，目前上述两类任务大部分都是被独立研究，两者之间潜在的有效关联尚未被充分探索。此外，现有的统一多模态大模型往往受限于固定视角的约束，只能在简单的前视视角(front-view)条件下生成和理解场景，难以在视角多变的真实世界中应用。

2.解决方案

为此，我们首次尝试在统一框架下融合以相机为中心（camera-centric）的理解与生成任务，将统一多模态大模型这一范式拓展至专注相机几何的空间智能领域。如下图，我们提出的Puffin模型结合了语言回归与基于扩散模型的生成能力，能够从任意视角和方向理解并创造场景。通过我们设计的指令微调阶段，Puffin还能灵活拓展至复杂的跨视角理解与生成任务。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图3 图二：我们提出一个以相机为中心的统一多模态大模型，能够在相机维度上扩展空间感知能力。虚线框内的部分表示在指令微调阶段进行的跨视角理解与生成过程，例如空间想象与世界探索等能力

在理解任务的网络设计方面，一种直接的方法是对包含视觉编码器与语言模型的现有多模态大模型进行微调，但这种朴素策略存在两点局限性：

（1）现有多模态大模型中的视觉编码器主要为识别任务设计，其提取的语义特征较为抽象、压缩程度大，缺乏与结构细节相关的几何保真度；

（2）现有多模态大模型中的语言模型部分几乎不具备空间感知的先验知识，难以适应到以相机为中心的下游任务。因此，这类多模态模型微调会导致性能瓶颈，甚至表现不如纯视觉方法。

为解决上述问题，我们引入了一个几何对齐的视觉编码器，通过语义教师网络（如 CLIP、SigLIP）与视觉教师网络（如 DINO、SAM）的双重蒸馏获得。该编码器能够在保持几何保真度的同时，兼具强语义理解能力。随后，我们采用渐进式解冻与联合微调的方式，将该编码器与语言模型逐步对齐。这种分阶段优化策略使得模型在底/中层结构线索与高层语言推理之间建立紧密联系。

在生成任务的网络设计方面，我们沿用MetaQueries架构并设计了一个连接模块，通过一组可学习的queries，将文本描述和相机参数对应的LLM 隐式状态映射为可被扩散模型理解的条件信号。为更好地利用相机几何信息，除了由数值参数离散化得到的相机离散token外，我们还引入了像素级的相机透视场作为连续的相机潜在变量，从而在图像生成中实现更精细的空间控制。

3. 与相机共思

与语言或图像不同，相机模型及其物理参数抽象且不直观——它们以数值形式描述视场、方向或投影关系，而非语义内容。这种差异导致在多模态模型中融入相机信息时会出现模态鸿沟（modality gap）。如下图（左）所示，以往的视觉方法主要通过提取或学习几何结构或语义信息等表征来从图像中估计相机几何。然而，上述表征往往侧重于局部的低层或中层视觉特征，难以捕捉到整体且连贯的空间概念。本研究并非追求更优的表征设计或学习，而是从另一角度出发——将相机理解为语言。如下图（右）所示，我们提出了通过多模态大模型“与相机共思”（thinking with camera）的概念。该方法在几何语境下对不同相机参数进行解耦，并在空间约束的视觉线索与专业摄影术语之间建立关联。随后，模型在空间推理过程< think >< /think >中进行分析和思考，并将相机理解结果输出在< answer >< /answer > 标签中。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图4 图三：提出通过多模态大模型实现的“与相机共思（thinking with camera）”概念。该方法在几何语境下对不同相机参数进行解耦，在空间约束的视觉线索（如mask区域）与专业摄影术语之间建立关联，进而形成空间推理思维链

“与相机共思”（thinking with camera）空间推理过程中的三大核心要素：

空间约束的视觉线索：三维世界受物理规律支配，重力与人工设计共同塑造了稳定的结构分布，为空间感知提供了强有力的先验。例如，天空、天花板、地面、沙滩等少纹理区域虽缺乏视觉特征，却蕴含着垂直方向的规律性，对俯仰角（pitch）估计至关重要。同样，视场角（FoV）的估计依赖于对空间构图的感知，包括前后景比例、物体尺度与深度分布等。虽然这些属性难以从纯视觉表征中直接推断，但多模态大模型已将其隐式地编码为知识先验。因此，我们将这些具备空间约束的视觉线索嵌入训练过程使用的“思维标签”（thinking captions）中，使模型能够对相机几何进行显式的空间推理。
专业级摄影术语：现有的多模态大模型具有过度抽象的语义表示，而相机参数的数值又过于细粒度，难以被精确理解。作为一种更具实践性的替代方式，专业摄影术语（如 close-up、tilt-up、Dutch angle 等）被广泛用于标注，并与多模态大模型的知识体系高度契合。因此，我们将这些术语作为中间监督信号，用以自然地桥接底/中层的相机几何与高层的多模态推理。这些术语可视为相机参数的量化抽象形式，与场景文本描述相结合，使整体空间布局能够以语言形式被感知与表达。
几何语境：我们在几何语境下对不同相机参数（roll, pitch, FoV）进行解耦，并将其与特定的空间视觉线索对齐，如天空、前景构图以及物体层级的深度排序等，从而对应到各类专业摄影术语。通过将数值属性锚定到具备语义意义的描述词，我们的框架在抽象视觉特征与可解释的几何之间建立了桥梁。最终的相机信息即通过这种结构化的空间推理过程进行预测。

4.共享的空间思维链

与理解任务不同，可控图像生成需要更复杂的跨模态对齐与精细的视觉细节合成。如上所述，相机参数数值对于当前多模态大模型而言过于细粒度，难以有效解析，从而无法准确捕捉相机可控生成所需的真实空间分布。

为此，我们设计了一种结合视觉细节分析与推理的分步生成流程：模型首先根据给定的相机空间信息从原始文本描述中推断潜在的视觉线索，然后将这一文本推理阶段作为语义规划，用于引导图像生成。此外，数值化相机参数被转化为更适合模型理解的专业摄影术语。我们发现，上面的步骤与相机理解中的推理过程自然对齐。因此，我们在可控生成与理解之间引入了共享的思维链机制，统一了多模态任务之间的思考方式。如下图所示，当给定较小的俯仰角和“室内”描述时，我们的模型会将参数角度值转化为摄影术语（如small tilt-down），并推测出窗台等潜在的视觉线索，从而辅助生成更精确的空间结构。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图5 图四：在可控图像生成任务中引入与理解任务共享的思维链机制，同样可以进行 “与相机共思“（thinking with camera）

5. Puffin-4M数据集

在多模态空间智能领域，能够同时覆盖视觉、语言与相机模态的数据集与基准仍极为稀缺。为弥补这一空缺，我们提出 Puffin-4M ——一个包含约400 万图片-语言-相机三元组的大规模高质量数据集。数据集的示例图如下所示，其中相机配置部分我们考虑了常用小孔相机模型下的标准内外参数（roll, pitch, yaw, FoV）。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图6 图五：Puffin-4M示例图

下图展示了Puffin-4M数据集的构建流程，其中包括四个阶段：360°全景数据的收集与预处理、2D透视图像的渲染生成、场景描述与空间推理打标，以及跨视角场景的扩展。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图7 图六：Puffin-4M数据集构建流程

除了上述训练集以外，我们还构建了两个评测基准数据集：Puffin-Gen和Puffin-Und，分别为相机可控生成和相机理解提供更加具备挑战性和综合性的验证标准。上述数据集均已开源：https://huggingface.co/datasets/KangLiao/Puffin-4M

6. 实验结果

如下所示，我们以相机为中心的统一多模态大模型Puffin与现有的专业级理解或生成模型相比，在多个数据集上表现出极具竞争力的性能，并在大部分数据集上超越现有模型。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图8 表一：与现有方法的定量对比结果

我们的相机理解结果及其相机透视场可视化如下：左侧为AIGC 图像（GTP-4o），右侧为真实世界的摄影图像。其中，相机透视场（latitude和up vector）由预测的相机参数转换得到。可以看出，我们的方法在各类场景中表现出不错的鲁棒性。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图9 图七：相机理解可视化结果

我们的相机可控生成结果如下。可以看出，我们的方法在各类相机配置和场景描述中均表现出合理的空间生成能力。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图10 图八：相机可控生成可视化结果

7.拓展应用

我们在图九中展示了Puffin多样化的拓展能力。首先，Puffin 能够通过精确预测相机参数，在自然场景图像中辅助虚拟三维物体的插入。此外，通过指令微调（Instruction Tuning），我们的模型可以灵活扩展至多种跨视角任务，如空间想象、世界探索和摄影指导等。其中在世界探索任务中，我们对初始视角与生成视角进行了三维重建并可视化（利用VGGT），结果显示生成结果在空间结构上保持了良好的一致性。更多拓展应用结果请参考论文的附录部分。

当空间智能大模型「与相机共思」：从任意视角理解和创造世界的统一多模态架构图11 图九：拓展应用。我们的模型能够通过指令微调（Instruction Tuning），灵活拓展至多个跨视角的生成和理解任务

8.总结与未来工作

我们提出了一个能够在任意视角下同时进行以相机为中心的理解与生成的统一多模态大模型——Puffin。以往研究通常将这两项任务视为独立问题分别探索，然而它们本质上是空间智能的两个互补基石：前者负责解码世界的几何结构，后者则将其重新编码为可控且空间一致的视觉内容。不同于以往局限于简单前视视角的统一多模态模型，Puffin 通过“将相机理解为语言”并引入“与相机共思（thinking with camera）”的理念，消除了视觉-语言-相机模态间的鸿沟。我们认为，统一以相机为中心的理解和生成可以将感知和合成锚定到相机几何的共享表征上，从而使机器能够更全面、更交互地进行空间推理。这种统一的模型为稳健的空间智能奠定了基础，并促进了更具灵活性和创造性的3D应用发展。在未来，我们计划进一步提升 Puffin 的跨视角能力，并将其扩展至以相机为中心的视频生成与理解，以促进在动态与沉浸式场景中的更广泛应用。

本文仅做学术分享，如有侵权，请联系删文。