
今天为大家分享清华大学最新的工作!具身AI中多传感器融合感知:背景、方法、挑战与前景!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
论文作者 | Shulan Ruan等
出发点与动机
1)具身AI与多传感器融合感知的重要性
近年来,随着深度学习和大型语言模型(LLM)的快速发展,人工智能在各个领域取得了显著进展。具身AI作为AI的重要方向,指的是以物理实体为载体,通过在动态环境中实时感知来实现自主决策和行动能力的智能形式,在自动驾驶、机器人群体智能等领域有广泛应用场景,是突破AI发展瓶颈、实现通用人工智能(AGI)的关键路径。
在具身AI系统构建中,传感器数据理解是连接物理世界与数字智能的核心环节。具身智能体需要融合视觉相机、毫米波雷达、激光雷达(LiDAR)、红外相机和惯性测量单元(IMU)等多模态传感器数据,以实现对环境的全景感知。多传感器融合感知(MSFP)对实现具身AI的稳健感知和准确决策能力至关重要,例如视觉相机易受光照变化干扰,而激光雷达在雨雾天气性能会大幅衰减。
2)现有研究的局限性
当前基于AI的MSFP方法在自动驾驶、工业机器人等许多领域已取得显著成功,但其在具身AI中的应用仍面临一些固有挑战:
跨模态数据的异质性使得特征空间难以统一。 不同传感器之间的时空异步可能导致融合误差。 传感器故障(如镜头污染、信号遮挡)可能导致多模态信息的动态丢失。
现有相关综述存在以下局限:
大多数综述面向单一任务或研究领域,如3D目标检测或自动驾驶,其他相关任务的研究人员难以直接受益。 多数综述仅从多模态融合的单一视角介绍MSFP,缺乏对多智能体融合、时间序列融合等MSFP方法多样性的考虑。

3)整体结构与贡献
这里从与任务无关的视角组织MSFP研究,纯粹从各种技术视角报告方法:
介绍MSFP的背景,包括各类感知任务、不同传感器数据、流行数据集及相应评估标准。 回顾点级、体素级、区域级和多级融合的多模态融合方法。 研究聚焦于多个具身智能体和基础设施之间协作感知的多智能体融合方法。 分析融合时间序列(如若干先前帧)传感器数据以进行预测的时间序列融合方法。 探讨基于视觉-语言和视觉-激光雷达的多模态LLM融合方法。 从数据层、模型层和应用层全面讨论MSFP的开放性挑战和未来机遇。


技术背景相关
1)传感器数据
相机数据:可捕捉物体的颜色、形状和纹理等丰富外观特征,对各种感知任务至关重要。但作为被动传感器,对光照条件敏感,在夜间和雾、雨等恶劣天气下图像质量显著下降。
激光雷达(LiDAR)数据:通过测量发射和接收激光信号的时间差来计算物体距离,直接输出包含空间几何信息的高精度3D点云,在3D感知中具有独特优势。但通常对天气敏感,且由于固有的稀疏性和不均匀性,有效表示和理解LiDAR点云数据仍具挑战性。
毫米波雷达数据:通过发射和接收无线电波检测物体。与LiDAR点云相比,雷达点云更稀疏,难以准确描述物体轮廓,但在恶劣天气下性能良好,可直接测量物体速度。

2)数据集
KITTI:包含14,999张图像及相应点云,7,481用于训练,7,518用于测试。注释涵盖8个类别,根据大小、遮挡和截断级别分为简单、中等和困难。数据采集车辆配备两台灰度相机、两台彩色相机、一个Velodyne 64线LiDAR、四个光学镜头和一个GPS系统,数据采集于德国卡尔斯鲁厄及附近城市的约50个场景,覆盖城市、农村和高速公路。
nuScenes:在波士顿和新加坡采集,包括700个训练场景、150个验证场景和150个测试场景,每个场景持续约20秒,有40个样本,总计5.5小时。数据集包含140万张相机图像、39万次LiDAR扫描、140万次雷达扫描和4万个关键帧中的140万个注释边界框,配备6台覆盖360度视野的相机、一个每帧139万个点的32波束LiDAR、5个毫米波雷达以及带有GPS和IMU的惯性导航系统。
Waymo Open:包括感知和运动数据集。感知数据集中的注释包括126万个3D边界框、118万个2D边界框、10万张图像的全景分割标签、14个关键点注释和3D语义分割标签。运动数据集包含103,354个带物体轨迹的片段。数据集包括白天、夜间、黎明、黄昏和雨天场景,但缺乏极端天气实例。
Cityscapes 3D:源自Cityscapes数据集,增加了3D边界框注释,由5,000张精细注释图像(2048×1024像素)和20,000张粗略注释图像组成,用于城市街景中的3D场景理解任务,如实例级语义分割。
Argoverse:使用两个32通道LiDAR传感器、七个环视相机和两个前向立体相机采集,覆盖360度,包含一个有1,000个3D注释样本的3D跟踪数据集,覆盖30个物体类别,还包括一个有25万个样本的运动预测数据集,提供场景轨迹数据、2万个未标记LiDAR数据样本和1,000张高清地图,提供关于道路基础设施和交通规则的丰富语义注释信息。
A*3D:主要在新加坡城市道路采集,包含超过3.9万个注释帧,每个帧标有2D和3D边界框,并包含跨帧的目标跟踪ID,涵盖高密度3D点云、高清RGB图像和IMU数据等不同传感器数据,覆盖360度视图,包括白天、夜间、雨天等各种天气条件以及不同城市道路条件的采集场景。
ApolloScape:由两个LiDAR传感器、六个视频相机和一个IMU/GNSS系统采集,包含超过14万个高分辨率图像,覆盖多个时间段和天气条件,共有25个类别。
AIODrive:由卡内基梅隆大学研究团队开发,针对城市场景,其合成传感器数据包括五个1920×720 RGB相机和五个深度相机、一个雷达、一个Velodyne-64 LiDAR、一个IMU、GPS和三个长距离高密度LiDAR。
H3D:主要关注城市环境中的3D目标检测和跟踪,通过Velodyne HDL-64E LiDAR和三个高分辨率RGB相机提供约160个城市场景,总计约2.7万个帧,每个帧包含物体的详细3D边界框和跟踪身份信息。
3)感知任务
目标检测:是广泛感知系统中最基本的任务之一,核心目标是通过传感器获取的数据准确定位和识别各种类型的物体。在2D目标检测中,系统需输出物体的类别信息和由(x, y, w, h)表示的2D边界框;在3D目标检测场景中,检测结果需包括目标的3D位置坐标(x, y, z)、3D尺寸信息(l, w, h)和航向角θ。
语义分割:任务旨在将场景中的每个基本单元(如图像像素)分类为语义类别。具体来说,给定一组输入数据(如一组图像像素I={I1, I2, ..., In})和一组预定义的语义类别y={y1, y2, ..., yk},分割模型需要为每个基本单元Ii分配相应的语义标签或类别概率分布。
深度估计:旨在从传感器数据中获取场景的深度信息,为具身智能体提供3D几何理解。给定输入图像I∈RM×N和相应的稀疏深度图Ds∈RM×N,深度估计系统需要输出密集深度图Dd,其中深度补全过程可表示为映射函数Dd=f(I, Ds)。通过深度估计,系统能够获取场景中物体的准确3D位置信息,这对路径规划和决策控制等下游任务至关重要。
占用预测:可提供对3D空间的密集语义理解。通过将连续的3D空间离散化为体素,占用感知模型可以预测每个体素的占用状态和语义类别,从而为自主决策提供完整的场景表示。
多模态融合方法

通过融合多模态传感器数据,具身智能体可以减少感知盲点,实现更全面的环境感知。例如,LiDAR可提供准确的深度信息,而相机保留更详细的语义信息。因此,如何更好地融合来自不同传感器的多模态数据以提供更准确和稳健的感知,已成为广泛应用中的热门研究课题。以下从不同融合级别介绍各种方法,即点级、体素级、区域级和多级。
1)点级融合
点级融合方法的典型流程旨在实现LiDAR点云与图像数据在单个点级别的特征融合,通过集成点云的几何坐标信息与图像的语义细节(如颜色和类别属性),可提高多模态感知精度。
早期方法如PointNet和PointNet++最初直接处理点云,不依赖体素等其他形式,仅用于基于LiDAR的3D目标识别。Frustum PointNets通过将2D候选框转换为3D平截头体并直接在原始点云上进行分割和回归,扩展了PointNet。PointFusion采用更标准的方法,分别使用CNN和PointNet从RGB图像和点云中提取特征,然后将它们连接以进行融合,但初始融合难以捕捉复杂的跨模态关系。
PI-RCNN通过两阶段过程改进了这一点,使用注意力聚合来细化3D提议和2D语义特征的融合,从而实现更详细的处理。PointPainting和FusionPainting等方法用图像特征注释每个LiDAR点,前者将LiDAR点投影到分割掩码上,后者使用自适应注意力进行语义级融合,与PI-RCNN等先提议方法相比,这些方法更好地处理了点云稀疏性问题。
MVP通过将2D检测结果投影到虚拟3D点并与LiDAR数据合并来增强稀疏点云,弥补了LiDAR在检测小物体或远处物体时的局限性。DeepFusion采用交叉注意力机制动态对齐LiDAR和图像特征,并通过反向数据增强解决几何失准问题。GraphAlign进一步使用基于图的特征匹配优化对齐过程,通过图特征对齐和自注意力特征对齐模块,实现点云几何特征与图像语义特征的像素级精确匹配,解决了多模态融合中几何位置不准确和语义关联模糊的核心问题。
2)体素级融合
体素级融合方法将不规则的LiDAR点云转换为规则网格(如体素或柱体),在保留几何信息的同时实现高效处理。为利用图像的语义丰富性,相机图像被集成到基于体素的方法中,以获得更好的感知能力,尤其是在稀疏或遮挡场景中。
CenterFusion通过将雷达点扩展为3D柱体,将雷达检测与图像物体相关联,以解决高度信息不准确等问题。但体素级方法通常因体素内空间信息丢失而遭受“特征模糊”。VPFNet通过使用体素-RoI池化层和虚拟点来对齐和聚合来自LiDAR和图像的特征,缓解了这一问题。PointAugmenting用图像特征增强LiDAR点,并对增强的点云进行体素化,但将3D点投影到图像平面可能会降低遮挡区域的性能。VFF引入点到射线投影方法,沿射线融合图像特征以提供更丰富的上下文信息,这对检测被遮挡和远处的物体特别有益。
对于特征对齐,AutoAlign引入了一个可学习的多模态融合框架,无需依赖投影矩阵即可动态对齐图像和点云特征。作为AutoAlign的增强版本,AutoAlignV2使用可变形注意力和稀疏采样来提高效率并降低计算成本,同时简化了数据增强。VoxelNextFusion使用自注意力将体素特征与相应和周围的像素特征结合,用于点和块融合,有效解决了分辨率不匹配问题,提高了对远程和具有挑战性物体的检测。

3)区域级融合
区域级融合方法侧重于从2D图像和其他模态聚合特定区域的信息,如特征图、ROI或区域提议,这些方法在模态之间的空间对齐更容易实现的场景中特别有效。
AVOD引入了多模态融合区域提议网络,分别处理BEV和RGB图像以生成高分辨率特征图,通过回归方向向量解决方向估计中的歧义。RoarNet采用两阶段框架,第一阶段直接从图像预测3D姿态以避免投影相关的信息丢失,第二阶段使用点云推理细化这些预测。
TransFusion利用Transformer进行LiDAR-相机融合,通过在LiDAR点和图像像素之间建立软关联,可适应上下文信息,解决了因图像质量差或传感器校准误差导致的鲁棒性问题。
对于热-RGB融合,由于特征对齐更简单,区域级方法更为常见。CMT-CNN通过重建与RGB候选区域对应的热区域,利用多尺度检测网络融合跨模态信息,解决弱光条件下的行人检测问题。AR-CNN通过预测位置偏移和自适应对齐区域特征,解决RGB和热图像之间的失准问题。GAFF和RSDet等双流架构在融合特征之前分别处理RGB和热图像,GAFF采用模态内和模态间注意力机制进行特征选择,而RSDet通过冗余频谱去除和动态特征选择细化融合。
4)多级融合
多级融合从不同级别集成多模态信息,以实现更全面的感知。Liang等人利用连续卷积在BEV空间的不同级别融合图像和LIDAR特征图。Zhu等人提出了一种两阶段跨模态融合方法,从点级和区域级增强语义丰富性和局部提议表示,从而在稀疏和遮挡场景下提高感知性能。类似地,MVX-Net执行点级和体素级融合。MMF进一步将该想法扩展到多任务框架,如2D/3D检测、地面估计和深度补全。
为提高鲁棒性,EPNet引入LI-Fusion模块,通过在不同尺度融合图像和点云特征来减少无关信息干扰。作为增强版本,EPNet++进一步引入双向信息交互,采用点云特征来细化图像特征,反之亦然,从而实现更鲁棒的特征表示。RCBEV专注于动态物体感知,弥合雷达-相机特征差异,而DVF通过生成多尺度密集体素特征来增强低密度区域的表示,避免使用3D边界框标签的嘈杂2D预测。LoGoNet将全局和局部融合与动态特征聚合相结合,提高复杂环境中的检测精度。
一些最近的方法采用注意力机制和对比学习来增强多模态融合。例如,CAT-Det使用对比学习编码跨模态的全局上下文信息。SeaDATE使用双重注意力和对比学习提取深层语义信息,而CSSA采用轻量级通道切换和空间注意力进行高效融合。Fusion-Mamba通过改进的Mamba结构和隐藏状态空间解决对齐问题。

多智能体融合方法

在复杂的开放环境中,特别是当能见度受阻或在恶劣天气条件下,单个具身智能体的感知系统面临众多挑战。协作感知技术可以集成来自多个智能体和基础设施的感知数据,这对解决遮挡和传感器故障问题至关重要。
CoBEVT是第一个通用的多智能体多相机感知框架,通过稀疏Transformer生成BEV分割预测以进行协作处理,包含轴向注意力模块,可高效融合多智能体多视图相机特征,捕捉局部和全局空间交互。CoCa3D提出了一种创新的仅协作相机框架,通过允许仅配备相机的多个智能体共享视觉信息,解决深度预测偏差问题,通过在同一点共享深度信息,减少误差,改善深度歧义处理,并将检测能力扩展到遮挡和远程区域,这是单智能体系统通常面临的挑战。
V2VNet引入了一个基于图神经网络的框架,用于融合来自多辆车的中间特征表示。MACP探索使用预训练的单智能体模型进行高效模型适应,以实现低参数计数和通信成本的协作感知。HM-ViT提出了一个统一的框架来解决多模态A2A感知问题,能够融合来自不同类型传感器的多视图图像和LiDAR点云特征,实现高效的多模态协作感知。MRCNet通过引入运动增强机制来解决运动模糊问题,该机制通过捕捉运动上下文减少运动模糊对目标检测的影响,在嘈杂场景中取得更好的性能。
此外,一些工作专注于改善协作感知中的通信问题,以实现更高效和稳健的合作。When2Com提出了一个学习如何构建通信组和何时通信的框架,通过利用握手机制和非对称消息大小,减少带宽使用,并在语义分割和3D形状识别任务中取得良好性能。Who2Com通过学习握手通信机制提高语义分割任务的准确性,与集中式方法相比使用更少的带宽。How2Com进一步提出了一种信息理论通信机制和时空协作Transformer,通过特征过滤、延迟补偿和时空融合改善协作感知,在3D目标检测任务中实现更高效和稳健的合作。CodeFilling通过信息填充策略和码本压缩技术有效优化协作消息的表示和选择,实现低通信成本的高效协作感知。
时间序列融合
时间序列融合是MSFP系统的关键组成部分,解决单帧限制并增强跨时空域的感知连续性。随着Transformer架构在计算机视觉中的出现,基于查询的融合方法已成为主流,其中编码为查询的感知特征与时空键和值交互,以实现有效的特征对齐。这些方法可分为三大类,即密集查询、稀疏查询和混合查询。

1)密集查询方法
密集查询方法为高分辨率3D空间或BEV空间中的每个查询点分配固定的光栅化空间位置。其中,基于BEV的密集框架尤为典型,BEVFormer作为开创性的BEV感知模型,基于DETR和Deformable DETR,通过可变形注意力机制实现多个相机视图中的自适应特征交互。与DETR3D解码器依赖稀疏物体查询不同,BEVFormer在编码器中加入基于密集BEV查询的额外编码器,以生成密集BEV特征,便于语义分割任务,其通过编码器中的时间自注意力模块融合时间戳t-1和t之间的时间信息。
BEVFormer v2采用两阶段检测架构,将透视视图检测与BEV检测集成,使BEVFormer v2能够通过透视监督自适应学习3D场景表示,而不依赖昂贵的深度预训练数据。
基于LSS这一基于深度的自下而上方法的代表,BEVDet4D将3D检测扩展到4D时间域。BEVDet遵循LSS范式,提出了BEV中多视图相机3D检测的框架,BEVDet4D保留前一帧生成的BEV特征,并通过空间对齐和特征连接将其与当前帧特征融合,为解决车辆自身运动的影响,提出了基于卷积的自我运动补偿方法,并通过辅助任务确保特征对齐的准确性。作为统一的感知和预测框架,BEVerse通过共享特征提取和提升模块,从多相机视频序列生成4D BEV表示。
此外,还有一些方法具有独特的架构设计或针对特定任务进行了优化。UniFusion提出了一个统一的时空融合框架,引入虚拟视图的概念,将历史帧视为具有空间变换关系的额外相机视图,便于时间和空间信息的并行处理。TBPFormer专注于更通用的架构设计,提出PoseSync BEV编码器用于特征对齐和同步,并设计时间金字塔Transformer用于多尺度特征提取和未来状态预测。HVDetFusion额外支持雷达成像,并基于BEVDet4D设计了两阶段解耦检测架构,利用16帧的连续序列(即8帧历史和8帧未来)进行特征提取和融合,显著提高了移动物体的检测和速度估计精度。
2)稀疏查询方法
在复杂的开放环境中,当时间信息集成到融合过程中时,网络处理的数据量变得更加庞大,此外,对于需要实时决策任务的应用,模型推理速度应受到严格要求。因此,稀疏查询方法因其效率、准确性和适用于稀疏感知任务而在行业中越来越受欢迎。
StreamPETR通过对象查询系统地在帧间传播长期信息,这种以对象为中心的时间建模范式避免了在密集BEV特征中建模时间关系的计算负担。
在StreamPETR之后,后续工作在特征表示和采样策略上取得了进一步改进。Sparse4D v1通过4D关键点采样和分层特征融合实现高效的时空特征提取,Sparse4D v2基于Sparse4D v1采用循环方法,使用稀疏实例进行时间信息传播,避免多帧采样以提高特征融合效率,Sparse4D v3进一步提出时间实例去噪和质量估计,同时加速模型收敛并提高性能。
多任务学习在各种感知任务中起着至关重要的作用,虽然联合训练多个任务会使神经网络变得繁琐,但使用稀疏查询提供了一个优雅的解决方案。MUTR3D是第一个端到端的3D多目标跟踪框架,通过3D MOT将目标检测与路径规划和轨迹预测等下游任务连接,并提出3D跟踪查询机制,可以建模跨帧目标的时空一致性。基于MUTR3D,PF-Track采用“通过注意力跟踪”框架,用对象查询在时间上一致地表示跟踪实例,在长期遮挡的情况下,PF-Track通过未来推理模块保持对象位置并实现重新关联,该模块消化历史信息并预测未来4秒的稳健轨迹。
此外,最近的研究显示出探索稀疏多模态时间融合新范式的新兴趋势。FusionFormer专注于BEV特征的时间融合用于3D目标检测,利用可变形注意力机制和残差结构进行特征对齐和融合。QTNet基于DETR提出了一种利用稀疏查询的新型时间融合范式,其运动引导定时建模(MTM)模块有效处理点云和图像特征之间的跨模态相关性,在保持轻量级架构的同时取得更好的性能。SparseFusion3D进一步推进了这一方法,引入MSPCP模块预测点云偏移,并结合雷达辅助查询初始化策略处理稀疏性挑战,从QTNet的MTM到SparseFusion3D模块的MSPCP的演变代表了从简单特征对齐到基于显式运动建模的技术转变。CRT-Fusion通过引入区分每个未来时间步的多步运动查询,解决了在相机-雷达时间融合中纳入物体运动的挑战,该方法采用运动特征估计器预测逐像素速度,并采用运动引导时间融合模块以循环方式对齐跨时间戳的特征,通过显式考虑物体动态实现卓越性能。
3)混合查询方法
混合查询方法结合密集和稀疏查询范式,以平衡计算效率和全面的场景理解,这些方法策略性地将稀疏查询用于对象级任务,同时保持密集表示用于空间完整任务,在多个感知目标上实现最佳性能。
UniAD是这种混合架构的典范,将感知、预测和规划集成在一个统一的框架中,利用稀疏对象查询进行高效检测和跟踪,同时保持密集BEV特征用于轨迹预测和规划任务,这种双重表示实现了全面的场景理解,而不牺牲实时性能。基于UniAD的成功,FusionAD将混合方法扩展到多模态时间融合,通过基于Transformer的架构处理相机和LiDAR数据,该架构根据任务要求自适应地在稀疏和密集表示之间切换,展示了混合查询方法在处理异构传感器数据方面的灵活性。
多模态混合查询方法通过精心设计的架构有效处理来自多个传感器(不同环视视频相机或多模态传感器,如4D毫米波雷达、LiDAR、相机)的异构数据,在时空特征提取和融合方面表现出卓越能力。RCBEVdet引入双流网络,对于雷达流,设计生成密集BEV特征的RadarBEVNet用于点云BEV特征提取;对于相机流,利用来自LSS的图像主干和视图Transformer进行特征表示,然后,通过基于可变形DETR的交叉注意力多层融合模块,更好地执行有效的4D毫米波雷达-相机融合。
MM-LLM融合方法
近年来,大型语言模型(LLM)在各种任务中取得了令人印象深刻的性能。通过融合不同模态的数据,多模态LLM(MM-LLM)可以执行更复杂的任务,如图像描述、视频理解和跨模态检索。最近,还设计了各种新数据集来推进具身AI的MM-LLM,例如DriveLM、OmniDrive和NuInstruct等项目通过结合大型语言模型(LLM)来增强现有数据集,生成涵盖感知、推理和规划的问答对。此外,MAPLM将多视图图像与LiDAR数据集成,以分析和解释路面状况。基于MM-LLM和这些数据集,已经对如何将MM-LLM纳入MSFP进行了许多研究,主要从视觉-语言方法和视觉-LiDAR-语言方法两类回顾现有相关工作。

1)视觉-语言方法
多模态大型模型在智能感知方面显示出巨大潜力,各种方法探索了它们在解决现实世界环境复杂性方面的能力。X-Driver提出了一个统一框架,利用具有思维链推理和自回归建模的多模态大型语言模型,实现卓越的闭环自动驾驶性能,增强了可解释性。Mpdrive引入了一种新颖的基于标记的提示学习框架,利用简洁的视觉标记来表示空间坐标,并构建双粒度视觉提示,在需要高级空间理解的任务上实现最先进的性能,增强了空间感知。DriveVLM通过两个不同的分支将传统架构与MM-LLM集成:一个专注于传统视觉处理,另一个利用多模态Transformer的力量进行场景理解。
模型设计的进步进一步增强了感知和推理能力。Reason2Drive利用先验标记器提取局部图像特征,BEVInMLLM纳入BEV表示用于空间理解,OmniDrive使用Q-Former3D将2D预训练知识与3D空间数据集成,同时,ELM通过时间感知标记选择机制捕捉时间信息。此外,Chen等人提出了一种新颖的架构,通过两阶段预训练和微调方法将对象级矢量化数字模态融合到任何LLM中。
2)视觉-LiDAR-语言方法

鉴于LiDAR和文本数据的有限可用性,将点云特征直接与文本特征对齐面临重大挑战,这是因为点云数据本质上是三维且稀疏的,缺乏文本数据的密集、结构化性质。为克服这些挑战,通常利用图像特征作为中介,有效弥合文本和LiDAR数据之间的差距,这样,图像中可用的丰富视觉信息可用于促进这些不同数据类型的更无缝集成。
DriveMLM采用时间QFormer处理多视图图像,可以有效捕捉不同视角之间的时间动态和空间关系,这对于理解复杂场景至关重要。
此外,在多模态处理中,一些方法采用间接方法处理点云数据,将点云转换为图像以便于信息提取,这种转换允许利用在图像处理中表现出色的成熟技术,从而提高MSFP的整体效率和有效性。例如,MAPLM将3D LiDAR点云数据投影到BEV图像,并通过视觉编码器提取特征,这种方法将3D数据转换为2D表示,使其更容易使用为图像数据设计的传统深度学习模型处理,通过使用BEV图像,MAPLM弥合了点云和图像数据之间的差距,使强大的视觉模型(如CLIP)的使用成为可能。LiDAR-LLM引入了一个新颖的框架,通过将3D认知重新表述为语言建模任务来理解3D室外场景,利用位置感知Transformer(PAT)和三阶段训练策略来弥合3D-语言模态差距,并在3D字幕、接地和问答等任务中实现最先进的性能。
参考
☟☟☟
☞人工智能产业链联盟筹备组征集公告☜
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?
【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力
【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南
10份北京大学的DeepSeek教程
【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施
【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望
【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)
8份浙江大学的DeepSeek专题系列教程
浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育
浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景
浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读
浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅
浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧
浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原
浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来
4份51CTO的《DeepSeek入门宝典》
51CTO:《DeepSeek入门宝典》:第1册-技术解析篇
51CTO:《DeepSeek入门宝典》:第2册-开发实战篇
51CTO:《DeepSeek入门宝典》:第3册-行业应用篇
51CTO:《DeepSeek入门宝典》:第4册-个人使用篇
5份厦门大学的DeepSeek教程
【厦门大学第一版】DeepSeek大模型概念、技术与应用实践
【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇
10份浙江大学的DeepSeek公开课第二季专题系列教程
【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)
【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)
【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)
【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)
【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)
【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)
【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)
【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)
【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)
【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)
6份浙江大学的DeepSeek公开课第三季专题系列教程
【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)
【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)
【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)
【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)
【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)
人工智能产业链联盟高端社区

一次性说清楚DeepSeek,史上最全(建议收藏)
DeepSeek一分钟做一份PPT
用DeepSeek写爆款文章?自媒体人必看指南
【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!
【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)
编辑:Zero



