SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!

3D视觉工坊 2026-06-27 00:00

点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达

本文经作者审核发布 | 编辑:3D视觉工坊

隧道里GPS没了、走廊里激光"瞎"了、草地上轮子打滑了、夜路上相机黑了——多传感器SLAM最怕的四种"翻车现场",这套框架一个都没躲,还全程稳如老狗。

如果你做过多传感器融合定位,大概率经历过这样一个崩溃瞬间:

辛辛苦苦在无人车上调好的SLAM,换到四足机器人上,直接不能用了——状态变量要重写,因子图要重搭,初始化逻辑推倒重来。好不容易跑通了,结果车一进隧道,GNSS信号消失,轨迹"嗖"地一下飘到了天上。

这不是个例,而是整个行业的通病。

VINS 系列只认视觉+惯性,FAST-LIVO 死死绑定激光+视觉,LIO-SAM 只吃激光+IMU——清一色的"专用定制款"。换平台、加传感器、减传感器,每一次都是一场伤筋动骨的大手术。更要命的是,真实世界从不按论文里的理想剧本走:城市峡谷里卫星被高楼挡得七零八落,逆光暗光让相机集体罢工,狭长走廊让激光雷达"找不着北"。传统方案在这些传感器退化场景里,往往一碰就碎。

Ultra-Fusion团队给出了一个堪称大一统的答案:

一套后端,兼容轮速、相机、激光、IMU、GNSS的任意组合;原生解决传感器退化与时空外参漂移两大工程顽疾;在自动驾驶、仓储机器人、四足配送、低空巡检无人机四类硬件上全部验证通过;配套自建的M3DGR评测基准,一口气拉来60多款开源SLAM同台竞技,在五大公开数据集上集体刷到SOTA。

📄 论文标题:Ultra-Fusion: A Resilient Tightly-Coupled Multi-Sensor Fusion SLAM Framework under Sensor Degradation and Spatiotemporal Perturbation for Intelligent Transportation Systems

🔗 论文链接:https://arxiv.org/pdf/2606.21223

🌐 项目主页:https://sjtuyinjie.github.io/ultrafusion-web/

💻 代码仓库:https://github.com/sjtuyinjie/Ultra-Fusion

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图1
图一:KAIST城市驾驶场景下的道路级定位与重建

先看一眼成品。上图是Ultra-Fusion在一段3公里的城市驾驶路线上跑出来的结果:轨迹用颜色标出行驶里程,放大后能看到道路边界、路边建筑被清清楚楚地重建出来。这是它的"出厂演示",而真正让它与众不同的,是藏在底下的那套设计哲学。

一、换个思路:别再为每种传感器组合"量身定做"了

要理解Ultra-Fusion的妙处,得先看清旧世界的笨拙。

过去的主流玩法,可以粗暴地分成三派:

  • 专用模态派(FAST-LIVO系列、LIO-SAM、VINS):轻量、精度高,但传感器配置写死,场景一恶劣就露怯;
  • 多子系统拼装派(Ground-Fusion系列):支持多模态,但各个子系统各自为政,信息在系统之间传递时被反复"压缩转手",损耗严重;
  • 统一单窗口全融合派——这一派,在Ultra-Fusion之前几乎是空白。

Ultra-Fusion团队的核心主张只有一句话:定位不该是"为每种配置写一套管线",而应该是"一个统一的估计问题"

怎么做到?答案优雅得近乎简单——把所有传感器的观测,统统变成同一个优化窗口里的"可选因子"(Optional Factor)。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图2

激光的点到平面残差、视觉的重投影残差、IMU预积分、轮速预积分、GNSS位置约束——它们不再是被外部里程计"嚼碎了"再喂进来的二手信息,而是作为一等公民,直接坐进同一张因子图里。系统的状态量精简到只有位姿、速度、IMU零偏三样;激光/相机/轮速的外参和时间偏移,则作为"可校准附加变量"挂在旁边。

这带来一个杀手级的好处:无论你想跑哪种模式,优化目标的数学形式完全一样,只是增减几个残差项而已。

想用轮速?那就是WIO。只有相机?VIO。纯激光?LIO。激光+视觉+轮速全家桶?LVWIO。换配置不需要动状态维度、不需要改边缘化接口、不需要重写初始化——这才是真正意义上的"一套代码通吃"。

这就好比从前你出门旅行得带一整箱专用工具,螺丝刀、扳手、剪刀分门别类各占一格;而Ultra-Fusion递给你的是一把瑞士军刀——同一个握柄,需要哪个功能就弹出哪个,不需要的就收起来。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图3
图二:Ultra-Fusion跨传感器·多平台·多场景统一框架总览

值得一提的还有一个工程细节:激光雷达扫描时车在动,会带来运动畸变。很多方案为此要上复杂的连续时间轨迹模型,计算开销巨大。Ultra-Fusion偷了个聪明的懒——用Slerp球面插值直接校正扫描内每个点的时间偏移,既保留了点级别的精细约束,又避免了沉重的轨迹参数化。单帧优化耗时控制在 5~10毫秒,车载实时妥妥够用。

二、四大模块,把"鲁棒"二字焊死在系统里

统一窗口只是地基。真正让Ultra-Fusion在恶劣场景里稳如磐石的,是搭在地基上的另外三根承重柱。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图4

模块① 可观测性自适应初始化:开机即用,告别"原地发呆"

传统SLAM的开机仪式相当死板:要么静止不动等重力对齐,要么死等足够的视觉特征。可一旦遇上无光、无纹理的场景,初始化动辄要等好几秒,而且初始误差大得吓人。

Ultra-Fusion设计了一套四分支启动逻辑,系统会根据当前的运动激励、激光有效点数、视觉特征数量,自动选最合适的"起手式":

启动模式
触发条件
适用场景
动态视觉惯性(D)
光照充足、运动幅度大
用SfM做视觉惯性对齐
静止/轮速辅助(S)
车辆原地或低速
靠IMU重力+轮速约束
激光辅助MAP(M)
狭长走廊、无纹理
靠激光几何先验
延迟初始化(A)
观测严重不足
继续缓存,绝不输出错误轨迹

最后一项尤其体现工程克制:宁可暂时不出结果,也绝不在证据不足时硬给一个错的

效果有多猛?在18组跨数据集序列上,Ultra-Fusion的平均初始化延迟仅 0.153秒,20秒短时轨迹平均误差 0.483米。而一旦关掉这个自适应模块,延迟直接飙到 4.6秒,误差扩大到 16.8米——足足放大了三十多倍。冷启动这道坎,它跨得几乎没有存在感。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图5
表一:初始化延迟与20秒短时定位精度对比

模块② 因子级可靠性调度(FRS):给每个传感器发一张"信用评分"

如果只能记住Ultra-Fusion的一个创新,那一定是它——Factor-Wise Reliability Scheduling

传统退化处理思路停留在"前端简单过滤":数据进来之前先粗筛一遍。Ultra-Fusion则把可靠性控制直接做进了优化问题内部。它给相机、激光、IMU、轮速、GNSS这五类传感器,各自设计了一套量化退化分数。分数越高,代表这一刻这个传感器越不可信;后端会据此对它的残差降权,甚至直接拉黑

打分的逻辑各有讲究,堪称"对症下药":

  • 激光退化打分:用点到平面的Hessian矩阵做特征值分解,看几何约束是否丰富。狭长走廊、大片白墙这类"一个平面撑全场"的退化场景,激光约束自动被弱化;
  • 视觉退化打分:统计有效特征数、空间分布均匀度(8×8网格占用方差)、KLT前后向一致性、平均重投影误差。暗光、遮挡场景里,视觉权重应声而降;
  • 轮速打分:拿IMU推算的运动增量和轮速增量做对比。草地打滑、车轮悬空时,两者一对不上,轮因子立刻被屏蔽;
  • GNSS打分:综合卫星数、定位协方差、新息一致性。隧道里卫星消失,GNSS项被干脆利落地关掉,绝不让一个错误的全局更新污染本来正确的局部轨迹。

为了避免传感器在"可信/不可信"之间反复横跳,系统还加了**短时滞回(hysteresis)**做平滑。整个过程,状态定义和边缘化接口纹丝不动。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图6
图三:Ultra-Fusion完整框架流程图

消融实验给出了最直观的答卷。在退化场景下,单独打开激光FRS,平均误差暴降75.3%;视觉模块降36.2%;轮速模块降41.3%。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图7
图四:因子可靠性调度(FRS)消融实验

不过,这里必须替读者把话说清楚,论文自己也很坦诚:这个收益只针对几何退化、光照退化、打滑这类"还有别的传感器能兜底"的场景。 如果你把所有传感器同时塞进一个谁都看不见的极端盲区,该飘还是会飘——世界上不存在100%零误差的银弹。Ultra-Fusion的本事,是"东边不亮西边亮"的冗余互补,而不是无中生有。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图8

模块③ 在线时空自校准(OSC):长时间跑也不"跑偏"

外参和时间戳,是多传感器系统里最隐蔽的"慢性病"。震动、温度变化、长时间运行,都会让激光和IMU之间的时间偏移、旋转外参悄悄漂移,日积月累就是米级的误差。

很多在线校准方案有个致命缺陷:在运动激励不足时还埋头更新参数,结果越校越歪。 Ultra-Fusion的对策是把校准拆成两条独立的并行线程,并设下严格的"准入门槛":

  • 时序校准线程:通过互相关匹配IMU角速度曲线和激光运动曲线,搜索最优时间偏移,最大支持 ±500毫秒 的修正范围;
  • 激光-IMU旋转外参线程:用扫描匹配与IMU预积分的旋转一致性,通过SVD闭式求解旋转矩阵。

关键在于那两道"门槛":只有在多轴运动充分、观测质量足够时才更新参数,否则就锁死外参、按兵不动。 而且校准更新时会同步修正全局地图位姿,不会让地图出现"断层"。

这套机制在抗扰动测试里的表现近乎降维打击。人为往仿真序列里注入 ±200ms 的时间延迟,基线方案的误差直接飙到米级,而Ultra-Fusion全程稳定在 分米级;在0°到10°的外参旋转扰动下,FAST-LIVO2在8°、10°时误差爆炸到上百米,Ultra-Fusion却始终保持 亚米级 精度。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图9
表二:注入不同IMU时间偏移下的RMSE对比

三、硬碰硬:60+开源系统,五大基准,集体被"上课"

光有漂亮的设计还不够,SLAM圈子认的是数据。Ultra-Fusion的评测规模,说一句"豪华"不为过。

评测横跨五大数据集——M3DGR(退化与扰动)、M2DGR-Plus(园区轮式)、KAIST(城市高速驾驶)、GrandTour(四足)、MARS-LVIG(无人机),拉来 60多款 主流SLAM做横向对比。

城市高速:轮速约束的"增益时刻"

在最高时速 96.9km/h 的KAIST城市驾驶序列上,差距被拉到触目惊心。Ultra-Fusion(LVWIO)的漂移率仅 0.37%,而FAST-LIVO2的漂移率接近 **30%**。高速场景下,轮速这个"老实巴交"的约束,反而成了稳定性的定海神针。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图10
表三:KAIST城市高速数据集ATE/漂移率对比

激光退化走廊:视觉与IMU的"接力救场"

在狭长走廊、隧道这类激光"几何贫瘠"的场景里,主流纯LIO方案动辄误差数米甚至直接失效。Ultra-Fusion靠视觉和IMU兜底,把误差死死摁在 0.3米以内。在仿真隧道Tunnel02序列上,R3LIVE误差高达上千米,FAST-LIVO2也有十几米,而Ultra-Fusion只有 2米左右

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图11
表四:激光退化仿真序列(荒野/隧道)精度对比

长时巡航:30分钟后,谁还站得住

在两段超过30分钟的长时序列上,长期漂移的抑制能力一见高下。Ultra-Fusion(LVWIO)平均轨迹误差仅 2.8米,而FAST-LIVO2是 8.4米。时间越久,差距越大。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图12
表五:30分钟以上长时序列定位误差对比

M3DGR全场景:Average Rank才是真功夫

在M3DGR的十个退化场景大表里,论文特意强调:单看某一项的最好成绩没意义,平均排名(Average Rank)才能反映真实的鲁棒性。 视觉方案在弱纹理下崩,激光方案在几何退化下崩,而Ultra-Fusion的各个变体——WIO、VWIO、LWIO、LVWIO——在各自的传感器组别里全部拿到了最优或接近最优的平均排名。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图13
表六:M3DGR全场景ATE RMSE全算法大比拼

四、真正的杀手锏:一套框架,三类平台

如果说精度领先是"术",那么跨平台通用性就是Ultra-Fusion的"道"。

绝大多数LVIO/LIO框架只适配地面轮式机器人。一旦换到四足机器人——机身剧烈振荡;或换到无人机——高速俯仰、大视角变化、高空弱结构,这些方案要么跟踪丢失,要么直接趴窝。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图14

Ultra-Fusion不绑定任何运动模型:没有轮速,就自动关掉轮因子;没有GNSS,就靠激光视觉惯性维持定位。 它实打实地在三类截然不同的移动平台上完成了验证:

  • 四足机器人(GrandTour数据集):在上下楼梯、颠簸地形、剧烈视角切换中,平均RTE做到了 厘米级,四个序列里三个拿第一;
  • 低空无人机(MARS-LVIG数据集):80~130米高空巡检,大量基线方案纷纷失效,Ultra-Fusion平均排名第一,还能输出可用于基础设施监测的地理参考轨迹;
  • 城市自动驾驶 + 园区仓储轮式机器人:从高速公路到差分轮小车,通吃。
SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图15
图五:四类跨平台轨迹真值对比
SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图16
图六:MARS-LVIG无人机机场场景全局三维重建

能同时覆盖地面、足式、空中三类平台的方案,放眼整个开源社区都屈指可数。这份通用性,才是Ultra-Fusion最难被复制的护城河。

五、被低估的副产品:M3DGR评测基准

最后还得提一句这篇工作"顺手"贡献的另一份大礼——M3DGR评测基准

团队在前作基础上大幅扩展,新增了仿真可控退化轨迹,总计 37组 真实+仿真序列,完整覆盖暗光、遮挡、狭长几何、车轮打滑、GNSS失锁五大典型故障场景,数据总量超过 300GB。更难得的是,仿真部分提供了精确真值,还能人为控制时间偏移、外参扰动,专门用于校准算法的公平对比——这正是过去整个领域最缺的东西。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图17
图七:M3DGR基准数据集与采集平台总览

在论文的数据集横向对比中(Table XIII),M3DGR在场景覆盖、传感器种类、对比算法数量(68款)上,几乎是全方位领先。可以预见,未来多传感器SLAM的鲁棒性比拼,大概率会把它当成标准考场。

六、清醒一点:它还不能做什么

把丑话说在前头,是对读者最大的尊重。Ultra-Fusion再强,也有清晰的能力边界:

  • 只管定位与几何建图,没有融合语义分割,也不做动态目标剔除——满街跑的车流、行人,它当下并不"理解";
  • 固定窗口优化,没有专门的回环检测模块,超长场景下的累积漂移仍会缓慢增长;
  • 论文坦言,5~10ms的单帧耗时对低配嵌入式设备仍有压力;
  • 所有测试基于离线数据集,缺少大规模实车长期路测——表格里的漂亮数字,代表的是结构化、相对规整场景下的性能,不能直接等同于真实复杂动态路况的实车表现。

这些,正是它通往真正量产落地路上,还需要叠加的拼图。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图18

写在最后:2026年的SLAM,需要的是"通用底座"

多传感器融合SLAM走到今天,核心需求已经悄然转向——从"单一场景刷高精度",变成了"全平台、全工况、稳定可用"。

过去的技术路线,要么精度高但场景受限,要么模态多但架构割裂。Ultra-Fusion用一个统一滑动窗口,打通了不同传感器、不同硬件平台之间的壁垒;用因子级可靠性调度在线时空校准,正面解决了量产中最头疼的传感器失效与长期漂移两大难题。

60多款主流算法的大规模对比、五大公开数据集的集体SOTA、四类移动平台的全面验证——Ultra-Fusion交出的,是这个领域罕见的一份完整答卷。

它当然不是终点。要真正适配高阶自动驾驶和复杂动态环境,还得在它之上叠加动态目标处理、回环检测、语义地图等上层模块。

但至少,它给整个行业,递上了一块真正能打的通用定位底座

论文/项目/代码均已公开,感兴趣的同学不妨去 GitHub 一探究竟。觉得有用,记得点赞、在看、转发三连~.

本文仅做学术分享,如有侵权,请联系删文。

SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图19SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图20SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图21SLAM大一统! Ultra-Fusion横空出世碾压60+开源方案,一套框架通吃四种平台/五大benchmark/六类传感器!图22

添加微信:cv3d001,备注:姓名+方向+单位,邀请入群。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AR 传感器 开源
more
【Vinaro® 技术沙龙】工业控制与PLC专题—“开放架构驱动的工业自主大脑”
Fable 5要回来了?「怪人」Dario Amodei被撤下谈判桌
不靠单款爆款吃红利,中国AI应用首现3亿ARR独角兽!腾讯顺为红杉继续加码
“中国芯”EDA专项技术创新奖候选连载 | τ-Aware_Signoff——韬定律落地的EDA基石
阿里技术大牛组团分享!AI智能体大会进展公布,Harness研讨会议程出炉
受 AR 和智能眼镜需求推动,2026 年第一季度全球智能头戴设备市场同比增长 83%
资讯速递|Paradromics无线脑机接口完成首次正式人体植入手术
不学亏了!OAI和A社都在力荐,终于有人讲清楚了——Learn Harness Engineering
横扫八大数学竞赛:清华微软联合提出STAR-PólyaMath,Apex基准超GPT-5.5 13.5%
新奢中产必看的掀背小奔驰,smart精灵6号17.79万元起
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号