

优必选百亿参数基座的多模态大模型Thinker霸榜多项全球榜单。机器人前瞻9月9日报道,近日,在机器人感知与规划领域三大国际权威基准测试——分别由微软、谷歌、香港大学等发起与提出的MS COCO Detection Challenge、RoboVQA与Egoplan-bench2中,优必选自主研发的百亿参数基座的多模态大模型Thinker,针对二十一个场景、四大类型的任务规划等命题,夺得了四项全球榜单第一。另外,参与本次排名的模型,还包括北京智源、英伟达ThinkAct、Cosmos-reason1、GPT-4V、Qwen2.5-vl等。
01.
MS COCO Detection Challenge 由微软发起的,是全球最具影响力的计算机视觉评测之一,主要通过真实场景图像验证模型对物体的精准识别与定位能力,在全球学术界与工业界享有极高认可度。▲优必选Thinker在MS COCO detection challenge - Segmentation Mask中排名第一
RoboVQA 由谷歌 DeepMind 提出的,是首个针对机器人的多模态长程推理评测,聚焦于验证模型能否将视觉信息、语言指令与物理常识结合,实现多步骤任务规划与动态决策。 RoboVQA关注模型的规划、区分性能力、生成性能力、过去描述和未来预测能力等。▲优必选Thinker在MS COCO detection challenge - Bounding Box排名中并列第一
Egoplan-bench2由香港大学提出,是首个聚焦现实场景多模态规划的基准测试,通过第一人称视角视频模拟人类日常任务,验证模型在动态环境中的长程决策能力。 Egoplan-bench2覆盖了工作场景、日常生活场景、娱乐场景以及应急与特殊场景等。▲优必选Thinker在RoboVQA与Egoplan-bench2中排名第一
02.
优必选的Thinker架构与训练框架,通过多项关键技术创新性整合,系统化提升了人形机器人的感知与推理规划能力。
优必选以ViT作为视觉编码器原型,结合Co-DETR检测头,依托Object 365等开源数据在通用视觉任务上进行预训练,并通过多阶段模态对齐机制实现了视觉-语言模态的高效融合。最终,在优必选机器人数据集上进行微调,显著提升机器人在工业场景中对物体、障碍和操作上下文的识别能力,为复杂环境下稳定可靠的多模态环境感知奠定了坚实基础。
优必选自研了具有百亿参数的多模态大模型Thinker基座,实现视觉-语言-时间的跨域统一表征,使机器人能够在多场景中准确捕捉环境细节、理解任务指令并做出推理,为自动化操作提供可靠的认知基础。
- 时序增强算法与强化学习方法,增强长程任务规划连贯可靠
通过大模型蒸馏技术,将百亿参数模型效果浓缩至7B参数模型中,在保持高性能的同时增强多步骤任务分解与连续决策能力。该优化使模型可以在端侧部署,用机器人自身搭载的算力就可实时自主拆解复杂流程,避免规划中断或逻辑混乱,在流程严格、环环相扣的工业场景中展现出关键价值,将有力保障生产连贯性和操作安全性。
03.
打造通用基础能力,工业场景再进行精调
优必选采用了“通用基础能力打造+工业场景精调”的微调策略,基于超200万条视频数据构成的大规模训练集进行预训练,随后引入优必选在工厂实训中积累的亿级工业数据集进行微调,并对工业场景任务规划数据加以清洗与整合,构建高效多模态大模型学习闭环。通过这一流程,模型能够快速学习工业场景的视觉特征、任务规则与操作偏好,最终显著提升人形机器人在工业场景中的理解准确率、规划适配性与决策可靠性,实现在多种复杂场景中的泛化性与稳定性。借助Thinker,Walker S2可精准识别设备、物料与障碍物,深度理解场景语义及操作前后逻辑关联,提升长周期任务的执行稳定性。在复杂流水线环境中,机器人展现出持续连贯的规划能力,大幅降低对人工干预的依赖。实际应用数据显示,相比仅基于通用数据微调的模型,采用工业数据集进行二次微调后,Walker S2在拆码垛规划等典型任务的中的规划精度提升超过 20%,相关技术报告将在arxiv上发布。▲Walker S2在工业场景中自主规划任务
04.
当前,人形机器人正处于从技术验证到大规模应用的关键拐点,其发展亟需与开发者共同构建开放、协同的应用生态。优必选称,后续将逐步开源一系列业界稀缺的工业场景数据集与通用基础大模型,为全行业提供源自实际应用一线的高质量合规数据资源。开发者可基于优必选多模态大模型Thinker,面向各类新场景开展精调与二次开发,助力提升开发效率。