0.这篇文章干了啥?
这篇文章提出了Kineo,一种全自动、无需校准的管道,用于对由未同步、未校准的消费级RGB相机捕获的视频进行无标记多视图运动捕捉。传统的无标记多视图运动捕捉方法存在需精确相机校准、计算成本高和重建精度低等问题。Kineo利用现成检测器的2D关键点,同时校准相机(包括Brown - Conrady畸变系数),并以公制尺度重建3D关键点和密集场景点云。其核心创新在于采用了基于置信度驱动的时空关键点采样策略,并结合基于图的全局优化,确保在固定计算成本下进行稳健校准,且计算成本与序列长度无关。此外,还引入了成对重投影共识分数来量化3D重建的可靠性,用于下游任务。
文章详细介绍了Kineo在时间同步、自动相机校准、公制尺度恢复、3D置信度估计等方面的具体方法。在时间同步上,采用基于音频的方法,通过紧凑音频描述符提高效率,并给出了实现亚帧同步精度的数学表达式;自动相机校准将多视图系统建模为图,通过最小生成树选择最优全局相机配置,同时提出了新颖的成对相机校准方法,提高了鲁棒性和可扩展性;公制尺度恢复提出了基于SMPL模型和基于单目公制深度估计的两种策略;3D置信度估计定义了一种简单有效的置信度指标,适用于多视图设置中的3D关键点。
实验方面,在EgoHumans和Human3.6M数据集上的评估表明,Kineo显著优于先前的无校准方法,相比现有技术,相机平移误差降低约83 - 85%,相机角度误差降低86 - 92%,世界平均每关节误差(WMPJPE)降低83 - 91%,且在实际场景中具有高效性,在某些配置下处理视频的速度比实际时长更快。消融实验进一步验证了相机参数估计、2D关键点检测器和全局缩放策略对性能的影响。Kineo提供离线和在线两种处理模式,适用于野外捕获和实时捕获等实际应用场景,具有模块化、可扩展和面向未来的特点,为无标记多视图运动捕捉提供了实用且高效的解决方案。
下面一起来阅读一下这项工作~
1. 论文信息
-
论文题目:Kineo: Calibration-Free Metric Motion Capture From Sparse RGB Cameras -
作者:CHARLES JAVERLIAT、PIERRE RAIMBAUD、GUILLAUME LAVOUÉ -
作者机构:École Centrale de Lyon, CNRS, INSA Lyon, Université Claude Bernard Lyon 1, Université Lumière Lyon 2, LIRIS, UMR5205, ENISE, France -
论文链接:https://arxiv.org/pdf/2510.24464
2. 摘要
无标记多视图运动捕捉通常受限于精确相机校准的需求,这限制了非专家用户的使用以及野外场景的捕捉。现有的免校准方法虽缓解了这一需求,但存在计算成本高和重建精度降低的问题。我们提出了Kineo,这是一种全自动、免校准的流程,用于从非同步、未校准的消费级RGB相机拍摄的视频中进行无标记运动捕捉。Kineo利用现成检测器检测到的2D关键点,同时校准相机(包括布朗 - 康拉迪畸变系数),并以公制尺度重建3D关键点和密集场景点云图。一种基于置信度驱动的时空关键点采样策略,结合基于图的全局优化,确保在固定的计算成本下实现鲁棒校准,且计算成本与序列长度无关。我们还引入了成对重投影一致性分数,以量化用于下游任务的3D重建可靠性。在EgoHumans和Human3.6M数据集上的评估表明,与现有的免校准方法相比,Kineo有显著改进。与之前的先进方法相比,Kineo将相机平移误差降低了约83 - 85%,相机角度误差降低了86 - 92%,世界平均关节误差(WMPJPE)降低了83 - 91%。Kineo在现实场景中也很高效,在特定配置下处理多视图序列的速度比序列实际时长更快(例如,处理1小时20分钟的素材只需36分钟)。完整的流程和评估代码已在liris - xr.github.io/kineo上开源发布,以促进可重复性和实际应用。

3. 效果展示
EgoHumans 数据集序列的定性结果如下。Kineo 的估计结果以蓝色可视化呈现,而真实相机与骨骼以黑色显示。场景点云图是通过我们方法的下游任务,借助 MoGe [54] 预测得到的。
图 13. 实验考古学工地记录的工匠示例。两个序列均通过六台未校准且未同步的 GoPro Hero11 Black 相机采集,无需任何校准流程。
4. 主要贡献
-
置信感知的时空子采样:引入一种新颖的关键点对应时空采样策略,该策略利用2D检测器的置信度来选择高质量的匹配,以实现基于随机抽样一致性(RANSAC)的运动恢复结构(Structure-from-Motion)进行本质矩阵估计,从而使该过程更加稳健和高效。 -
基于图的全局校准:将相机网络建模为加权图,为边权重分配成对校准质量指标(平均桑普森距离),并提取最小生成树(MST)来初始化相机外参的最优全局配置。推荐课程:。 -
3D置信度:通过为每个三角测量点定义成对重投影置信度分数,将2D置信度提升到3D,该分数可用于下游任务。 -
与模型无关和基于SMPL的尺度恢复:为解决全局尺度模糊问题,评估了两种独立的方法:(1)一种使用单目度量深度估计的与模型无关的方法;(2)一种在场景中存在人物时利用SMPL模型的基于人体先验的方法。 -
考虑畸变的校准:与以往的工作不同,明确估计并将布朗 - 康拉迪畸变系数纳入管道,即使使用容易产生镜头畸变的消费级RGB相机,也能实现准确的相机校准和稳健的3D重建。
5. 基本原理是啥?
基于音频的时间同步
-
Kineo采用基于音频的方法,通过将每个相机的音轨与参考相机的音轨进行互相关,计算出每个相机的时间延迟 。 -
使用梅尔频率倒谱系数(MFCCs)这种紧凑的音频描述符来提高效率,其能捕捉信号的频谱包络且对噪声具有鲁棒性。 -
给出了数学表达式,用于确定在固定音频分析参数下实现亚帧同步精度的相机距离阈值,或已知相机距离时所需的音频分析参数。
基于图的自动相机校准
-
相机图建模:将多视图系统建模为图,节点代表相机 ,边表示两个相机 和 之间的成对相对几何关系,通过在子采样的高置信度关键点对应集上进行基于RANSAC的运动结构(SfM)估计基本矩阵 ,边的权重由内点上的平均Sampson距离量化校准质量。 -
内参初始化:使用MoGe [54]获取每个相机内参的初始估计值,该模型后续还用于预测场景点云图,内参在捆绑调整阶段会进一步细化,并引入Brown - Conrady畸变系数。 -
高效的成对校准:提出基于置信度驱动的时空子采样关键点对应关系的方法,通过过滤低质量对应关系、利用多帧信息提高基本矩阵估计的鲁棒性,减少计算复杂度并确保足够的几何多样性。 -
图边可靠性估计:通过归一化点集并计算归一化Sampson距离,评估成对相机校准的可靠性,该距离作为边的权重反映相对姿态的可靠性。 -
相对尺度求解:利用闭环约束求解相对尺度 ,收集所有闭环约束形成齐次线性系统 ,并根据边的权重对闭环约束进行加权,通过优化问题求解未知的相对尺度因子。 -
最优绝对外参:使用Kruskal算法构建相机图的最小生成树(MST),以最小化总校准误差,通过沿着MST路径组合相对变换来计算绝对外参。 -
捆绑调整:分三步进行捆绑调整,逐步优化相机姿态(外参)、3D点、焦距和畸变系数,目标是最小化3D点在所有视图上的加权平均重投影误差。
3D输出和置信度分数
-
场景点云图重建:评估了MoGe [54]和VGGT [53]两种模型来重建场景点云图,MoGe是单视图方法,VGGT利用多视图联合预测全局点云图和相机姿态。 -
三角测量和置信度分数:使用加权直接线性变换(DLT)方法将2D关键点提升到3D空间,三角测量过程中根据2D关键点的置信度分数进行加权,提高重建的准确性和鲁棒性。 -
成对重投影置信度分数:为提升到3D的关键点分配置信度分数,通过测量3D点在每个相机上的重投影残差,并将其转换为分数,通过对所有视图对的分数进行平均得到最终的3D点置信度。
度量尺度恢复
-
基于SMPL的尺度估计:当场景中有人类时,利用SMPL参数化人体模型估计全局尺度因子,将尺度估计作为下游任务,通过优化问题确定尺度因子 ,使任意单位的骨架映射到公制空间并保持相同的身体比例。 -
基于度量深度的尺度估计:使用单视图度量深度估计器MoGe [54]估计全局尺度,通过计算公制单位下的关节深度与任意单位下的关节深度之比得到全局尺度因子 。




6. 实验结果
定量评估
-
数据集与指标:在Human3.6M和EgoHumans两个数据集上评估,使用W - MPJPE、PA - MPJPE、TE、AE等标准指标。 -
对比结果:Kineo在相机估计和3D人体重建方面均显著优于先前的无校准方法,如在EgoHumans数据集上,完全无校准设置下,相机平移误差降至0.34m(HSfM为2.09m),角度误差降至0.69°(HSfM为9.35°),W - MPJPE降至0.17m(HSfM为1.04m);在Human3.6M数据集上,相机平移误差降至0.12m(HSfM为0.83m),角度误差降至0.89°(HSfM为6.44°),W - MPJPE降至0.04m(HSfM为0.47m)。 -
参数影响:提供真实内参可提高性能,如在Human3.6M上,已知内参使平移和角度误差分别从0.12m和0.89°降至0.01m和0.20°,W - MPJPE减半至0.02m;考虑镜头畸变对EgoHumans数据集尤为关键,估计畸变参数后,相机平移误差从0.76m降至0.34m,角度误差从3.48°降至0.69°,W - MPJPE从0.41m降至0.17m。 -
效率评估:Kineo计算效率高且可扩展,使用RTMPose(B32 Half)时,处理时间短于视频原时长,且校准运行时间随序列长度增长仅适度增加。
消融实验
-
相机参数估计:仅估计外参时,误差源于SfM初始化和第一次束调整;估计内外参且忽略畸变时,额外误差来自内参初始化和第二次束调整;引入畸变估计可大幅降低重建误差,如EgoHumans数据集上W - MPJPE降低约68%,Human3.6M数据集上降低约57%。 -
2D关键点检测器:真值关键点误差最低,NLF在EgoHumans上优于DWPose,在Human3.6M上优于RTMPose,体现了Kineo在精度和效率间的平衡能力及模块化优势。 -
全局缩放策略:SMPL - based方法在含人的场景中有效,Metric Depth - based方法可用于无人类的场景。
定性评估
-
与HSfM对比:Kineo在Human3.6M上的最佳序列中,平均W - MPJPE更低且标准差更小,相机姿态估计更好。 -
EgoHumans结果:Kineo在EgoHumans数据集的代表性序列上的估计结果与真值接近,能有效校正镜头畸变,改善多视图三角测量和后续重建过程。
实际应用
-
野外捕获(离线模式):可使用电池供电相机快速部署,无需现场校准,能处理长达30分钟的视频序列,如在考古工地记录工匠手势。 -
实时捕获(在线模式):可处理实时视频流并提供即时视觉反馈,适用于交互式运动捕捉系统和实时化身动画,先记录30s - 1min序列进行相机校准,之后实时处理帧。






7. 总结 & 未来工作
总结
我们提出了 Kineo,这是一种全自动、免校准的度量多视图无标记运动捕捉管道,可在不同步、未校准的消费级 RGB 相机上运行。通过采用基于置信度驱动、以关键点优先的方法,Kineo 能够识别跨帧和视图的最可靠对应关系,从而实现稳健的校准和重建,而无需进行逐帧参数拟合的计算成本。其设计将经典的结构从运动(SfM)几何与现代关键点检测相结合,形成了一个模块化、可扩展且面向未来的系统:2D 检测器的改进可直接提高校准精度和 3D 重建质量,而无需更改架构。
在 EgoHumans 和 Human3.6M 数据集上进行的广泛评估表明,Kineo 显著缩小了免校准方法和校准方法之间的性能差距,超越了先前最先进的免校准方法。此外,其计算效率使其能够进行长时间视频序列的离线处理和实时操作。值得注意的是,Kineo 能够有效地扩展到现实世界的野外捕捉场景,在某些配置下,其处理速度甚至比视频的实际时长还要快。
未来展望
我们确定了几个有前景的研究方向。首先,将提出的 3D 置信度分数集成到时间滤波中,可以提高鲁棒性和时间连贯性。其次,可按照 Choi 等人的方法,通过纳入光度损失来进一步改进相机姿态估计,他们证明了动态神经辐射场(NeRF)优化可用于联合优化相机姿态和重建场景的体积表示。