万能“目标检测神器”来袭 | 3B参数+大一统10+任务，YOLO等传统检测器《瑟瑟发抖》！

打造一个有温度、有趣味、专业的全栈式AI&AIGC交流社区，

用心写好每一篇文章！

项目主页-https://rex-omni.github.io/

体验链接-https://huggingface.co/spaces/Mountchicken/Rex-Omni

代码链接-https://github.com/IDEA-Research/Rex-Omni

论文链接-https://arxiv.org/pdf/2510.12798

为什么需要这个算法？--长期以来，目标检测一直由传统的基于坐标回归的模型主导，如YOLO、DETR和接地DINO。尽管最近的努力试图利用MLLM来完成这项任务，但他们面临着低召回率、重复预测、协调失调等众多的挑战!

这个算法能做什么？--Rex-Omni是一个仅有3B参数多模态模型，它将视觉感知任务（包括对象检测、OCR、指向、按键指向和视觉提示）统一到一个单一的下一点预测框架中。

这个算法效果如何？--除了常规检测之外，Rex Omni固有的语言理解能力还支持多种功能，如对象引用、指向、视觉提示、GUI基础、空间引用、OCR和按键指向等，所有这些功能都在专用基准上进行了系统评估。

万能“目标检测神器”来袭 | 3B参数+大一统10+任务，YOLO等传统检测器《瑟瑟发抖》！图1

01-Rex-Omni模型简介

本文提出了Rex Omni，这是一种仅有3B的多模态大语言模型（MLLM），它实现了最先进的物体感知性能。在COCO和LVIS等基准测试中，Rex-Omni在零样本设置中的性能与基于回归的模型（例如，DINO、Grounding DINO）相当或超过基于回归的模式。它主要通过三个关键设计实现的：

任务公式：作者使用特殊的令牌来表示从0到999的量化坐标，降低了模型的学习难度，提高了坐标预测的令牌效率；
数据引擎：作者构建多个数据引擎，生成高质量的基础、引用和指向数据，为训练提供语义丰富的监督；
训练管道：作者采用两阶段训练过程，将2200万数据的监督微调与基于GRPO的强化训练相结合。这种强化学习后训练利用几何感知奖励来有效地弥合离散到连续坐标预测的差距，提高框的准确性，并减轻源于初始SFT阶段教师指导性质的重复预测等不良行为。

02-Rex-Omni落地场景

02.01-通用目标检测

如上面的视频所示，该模型可以应用于“各种目标检测任务”中。它通过将类别名称作为自然语言输入来检测和定位对象，从而实现灵活直观的基于文本的对象检测。

02.02-特定目标检测

如上面的视频所示，除了通用目标检测之外，该模型还支持“特定目标检测”功能！它可以准确的识别和定位与自然语言引用表达相对应的对象，实现语言描述和视觉内容之间的精细对齐。

02.03-目标点定位

如上面的视频所示，该模型支持“目标点定位”功能。预测由自然语言描述指定的目标对象的精确点位置，允许细粒度和轻量级的空间定位。

02.04-OCR检测+识别

如上面的视频所示，该模型可以支持“OCR检测与识别”功能。通过预测与图像中的文本区域对应的边界框或多边形来检测和识别单词或文本行。

02.05-视觉提示生成

如上面的视频所示，该模型同时支持“视觉提示生成”功能。检测与提供的视觉提示属于同一类别的所有对象，其中参考对象由输入图像中的一个或多个边界框指定。

02.06-关键点检测

如上面的视频所示，该方法不仅支持人体关键点检测，还支持动物等其它类别的关键点检测。它可以额检测实例并输出一组标准化的语义关键点（例如，人类/动物的17个关节），提供结构化的姿势表示。

03-Rex-Omni上手指南

万能“目标检测神器”来袭 | 3B参数+大一统10+任务，YOLO等传统检测器《瑟瑟发抖》！图2

步骤1--访问https://huggingface.co/spaces/Mountchicken/Rex-Omni链接；

步骤2--如上图中的红框所示，选择“任务类型”；

步骤3--如上图中的绿框所示，执行“任务描述”；

步骤4--如上图中的蓝框所示，执行“文本提示词配置”；

步骤5--如上图中的黄框所示，“上传输入图片”；

步骤6--点击上图中的紫框，稍等片刻即可！

04-Rex-Omni整体流程

万能“目标检测神器”来袭 | 3B参数+大一统10+任务，YOLO等传统检测器《瑟瑟发抖》！图3

上图展示了该模型的整体框架。仅有3D参数的Rex-Omni大模型大一统了10+个视觉任务。它将视觉感知重新定义为下一个点预测问题，将各种视觉任务统一在一个生成框架内。

它自动回归地预测空间输出（如方框、点、多边形），并通过两阶段训练管道进行优化，规模监督微调（SFT）作为基础，然后是基于GRPO的强化学习，用来提高几何意识和行为一致性。

05-Rex-Omni性能评估

05.01-主观效果评估

万能“目标检测神器”来袭 | 3B参数+大一统10+任务，YOLO等传统检测器《瑟瑟发抖》！图4

万能“目标检测神器”来袭 | 3B参数+大一统10+任务，YOLO等传统检测器《瑟瑟发抖》！图5

上图展示了该方法与一些SOTA的多模型大语言模型（Grounding DINO、SEED1.5-VL、Qwen2.5-VL、Ovis2.5、MiMo-VL、SEED1.5-VL、DeepSee框-VL2）在相同输入下的生成效果。通过观察与分析，我们可以发现：与其它基线相比，该方法生成的检测结果更加精准，无论是从质量上面，还是从数量上面来看。

05.02-客观指标评估