5月大模型杀疯:每2天出一款,比本体还多

高工机器人 2026-06-13 11:04
5月大模型杀疯:每2天出一款,比本体还多图1
5月大模型杀疯:每2天出一款,比本体还多图2

加入高工机器人专业行业群,加微信:13590381326,出示名片,仅限机器人及智能制造产业链相关企业。

*本文共约 4165 字,阅读完成需 8.5 分钟。

2026年,具身大模型和各类框架系统扎堆出现。


几乎每个月都有新成果公布,如提升机器人完成复杂长程任务的能力,强化模型预测能力与动作决策之间的关联,增强模型推理能力,统一并简化模型结构,提升VLM环节的推理能力,甚至为其附加运动决策功能等。


虽然方向各异,但每项成果都在修补现有模型的短板。


单看这些新发布或开源的大模型,可能会觉得方向模糊、难辨高下;但若将它们放在一起对比,就会发现一个清晰的图景:世界模型已是势不可挡的趋势,而VLA也远未退场。




具身智能企业新发布的大模型


普渡机器人


具身智能大模型PuduFM 1.0通用具身智能体平台PuduAgent


5月11日,普渡机器人发布具身智能大模型Pudu Foundation Model(PuduFM 1.0)。


该模型采用分层解耦、协同进化的系统架构,通过模拟生物神经系统的"大脑"高层逻辑规划与"小脑"底层精细控制的清晰分工,赋予机器人应对复杂、不确定性场景的卓越鲁棒性。


5月12日,普渡机器人发布通用具身智能体平台PuduAgent。


PuduAgent是一个面向物理世界的通用具身智能体平台,包含三大核心能力:系统层(PuduAgent OS)提供运行环境与认知基座;能力层(PuduAgent Skills)构建标准化的原子能力库;安全层(PuduAgent Safety)实现执行约束与风险控制。


蚂蚁灵波


具身基座模型LingBot-VLA的真机后训练工具链


5月大模型杀疯:每2天出一款,比本体还多图3


5月13日,蚂蚁集团旗下具身智能公司灵波科技,宣布全面开源具身基座模型LingBot-VLA的真机后训练工具链。


基于这套工具链,开发者可以把自有数据从LingBot-VLA快速迁移到自有机器人和具体任务中。


资料显示,此次开源针对真机适配过程,主要面向4个环节:支持多LeRobot数据合并、关节维度映射标准化的数据处理工具;面向真机场景优化的训练配置;离线评测工具;以及支持编译加速的真机部署模块。


晨昏线科技


目标因果世界模型TermiBrain GCWM1


5月大模型杀疯:每2天出一款,比本体还多图4


5月13日,晨昏线科技发布目标因果世界模型TermiBrain GCWM1,核心为“世界模型不应只是像素生成器,必须是物理因果引擎。” 


该模型实现了从世界理解→世界预测→世界干预的完整闭环,在此基础上,GCWM1 进一步提出了“多世界线搜索”,从物理先验的底层约束和任务目标出发,在潜空间中并行生成与核心目标因果相关的关键世界线,每一条都清晰标注着“如果这样,就会那样”。


从“单状态决策”跨越到“多状态分布预测”,让机器人具备了成功率更高的预判能力。


地平线 


小脑大模型HoloMotion-1


5月大模型杀疯:每2天出一款,比本体还多图5


5月18日,地平线正式开源其机器人实验室面向人形机器人全身控制打造的4亿参数级机器人小脑大模型HoloMotion-1。


在模型架构上,HoloMotion-1采用MoE-Transformer policy。系统以参考动作和机器人本体观测为输入,通过reference-conditioned router进行稀疏专家路由,再由Transformer主干网络和action head输出机器人全身控制动作。


HoloMotion-1首先建立的能力是,Imitate Any Pose,即机器人运控领域中的通用motion tracking任务。也就是说,机器人不仅要会走路、站立或执行少量预设动作,还要能够从大规模开放动作数据中学习复杂全身姿态,并迁移到真实机器人上稳定执行。


智元


BFM-2


5月23日,智元发布了BFM-2,二阶段 Motion-Between 运控基座模型,一个能在任意状态下自主推理运动演化的“小脑”。


BFM-2 是全球首个引入端到端 DOF Feather Motion Generator 生成式训练机制的全身运动基座模型。


资料显示,运控基座模型,它背后对应着一个真实需求,当上层智能越来越强,机器人底层身体也必须变得更通用、更稳定、更可调用。


其一般由三层构成,上层是VLA,主管语义解析和任务调度;中层是运控基座,负责身体行为生成;底层是硬件系统,专司真实力矩与接触执行。


根据智元官方演示,搭载 BFM-2 的人形机器人被人为推倒后能自主调整肢体姿态,数秒内连贯起身并保持动态平衡;在不平整地面测试中也能主动调步态稳重心。


智澄AI


Chengling PWM 0.1


5月28日,智澄AI正式开源澄灵物理世界模型 0.1 版本(Chengling PWM 0.1),采用MIT 开源协议。


澄灵 PWM 同源于 Meta 联合嵌入预测架构(JEPA),与传统生成式世界模型不同,它直接从视觉、本体觉等原始感官输入中学习物理世界运行规律,通过观察机器人演示预测动作后果,让机器人在执行任务前完成 "心智模拟"。


本次开源的 0.1 版本聚焦核心架构与训练流水线,在 robomimic 多模态数据集上完成验证,可根据历史观察序列和自然语言指令,预测完整未来动作轨迹。


自变量


具身基础模型 WALL-OSS-0.5


5月大模型杀疯:每2天出一款,比本体还多图6


5月28日,自变量机器人开源了其具身基础模型 WALL-OSS-0.5。


该预训练模型可以直接部署到自变量自研的机器人本体上,完成搬运、分拣、整理绳子等多种操作任务,甚至一些效果能够达到不少模型需要微调才能触及的水平。


WALL-OSS-0.5 模型瞄准的核心命题是让 VLM 主干真正习得可泛化的动作能力。


WALL-OSS-0.5把动作 Token 化,然后塞进语言模型训练。


自变量提出了一个叫 Gradient-Bridge 的设计,因为过去的 VLA 是图像到主干,再到动作头,动作监督停留在 Action head。


经过 Gradient-Bridge 后,图像、文本、动作 Token 并到同一条自回归序列,使得动作也像语言一样,可以被预测。


模型用交叉熵损失去学习动作 token,并让梯度直接反向更新主干模型。


世界模型Wall-WM


5月大模型杀疯:每2天出一款,比本体还多图7


同月29日,自变量机器人推出首个具备事件级预测能力的世界模型Wall-WM。


模型传递过程中信息丢失的问题。自变量通过 Wall-WM 这一世界模型,先换掉大模型思考的时间单位,以“事件”为单位进行预测。


即模型只在世界发生重要变化时,才重新调整预测。

Wall-WM 可以实现同一套“大脑”,可以灵活适配不同场景。这源于其有两种模式。


一是事件模式,适合已经有上层规划器的场景,设置好指令后,机器人一次输出一个完整的动作单元;


二是统一模式,适合没有外部规划器、需要端到端实时控制的场景,模型独立完成推理和执行,保持固定的控制频率。


越疆


DobotWAM具身大模型


5月大模型杀疯:每2天出一款,比本体还多图8


5月29日,越疆正式发布自研世界动作模型空弈DobotWAM具身大模型。


越疆空弈DobotWAM具身大模型的思路,是在视觉-语言-动作建模基础上,进一步引入三维空间理解、机器人运动几何约束和真实数据闭环机制,让模型不仅学会“模仿动作”,更学会“理解动作为什么这样做”。


眸深智能


STI-WM时空一体世界动作模型


5月31日,眸深智能正式推出STI-WM时空一体世界动作模型(Spatiotemporally Integrated World Model)。


STI-WM面向机器人长时序规划、在线闭环控制、真实物理交互,实现空间结构、时间演化、物理一致性、执行鲁棒性四维一体化统一。模型可兼容RGB图像、深度点云、机器人本体多模态感知输入,将复杂环境信息统一编码为紧凑高效的时空潜在世界状态,上层支撑百秒级长时程任务推演与全局轨迹规划,下层输出精准可控的精细化动作片段。




具身智能模型相关论文


浙江人形机器人创新中心&港中文大学&浙江大学


论文题目A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation


三维空间理解与操作模型RAM(Retrieval-Augmented Manipulation)   


探索方向:用“知识检索”让机器人读懂三维世界


5月大模型杀疯:每2天出一款,比本体还多图9


5月1日,由浙江人形机器人创新中心联合香港中文大学、浙江大学等多家高校与科研机构共同发表了机器人空间智能研究,提出名为RAM(Retrieval-Augmented Manipulation)的三维空间理解与操作模型,为提升机器人在复杂长程任务中的操作可靠性提供了新的技术路径。


RAM 借鉴检索增强生成(RAG)的思想,为大模型配备可查询的外部三维知识库。机器人执行任务时,模型可以按需检索物体类别、几何属性、功能平面、抓取点等空间先验信息,从而弥补视觉语言模型自身三维空间理解不足的问题。


与将知识隐含在模型参数中不同,RAM 的空间知识更加显式、可解释,也便于扩展。


OpenHelix Robotics&浙江大学&西湖大学


论文题目VAMPO: Policy Optimization for Improving Visual Dynamics in Video Action  Models


VAM强化学习后训练框架VAMPO


探索方向:视频动作模型落地机器人操控的瓶颈


5月大模型杀疯:每2天出一款,比本体还多图10


5月18日,OpenHelix Robotics、浙江大学、西湖大学等团队联合发布了VAMPO。


该框架旨在消除“生成逼真度”与“操控精准度”之间的目标错位,使机器人的未来预测能力能服务于动作决策。


研究成果:


其一,为避免奖励投机(Reward Hacking)与长程信用分配失效,VAMPO首创欧拉混合采样器(Euler Hybrid Sampler),解决信用分配难题;


其二,采用GRPO(分组相对策略优化)算法,搭配潜空间一致性奖励(L1距离+余弦相似度),对齐专家动态。


北京人形机器人创新中心


论文题目Pelican-Unify 1.0: A Unified Embodied Intelligence Model for Understanding, Reasoning, Imagination and Action


统一具身基础模型Pelican-Unified 1.0


探索方向:用单一模型把"看懂场景、推理任务、想象未来、执行动作"四个能力统一进同一个梯度回路,不再靠VLM、VLA、世界模型系统拼 PipeLine。


5月大模型杀疯:每2天出一款,比本体还多图11


5月20日,北京人形发布首个统一具身基础模型Pelican-Unified 1.0。


Pelican-Unified 的架构包括两大组件:


组件一结合理解和推理,即统一 VLM,这个推理轨迹不是事后解释,是具身生成过程的中间表示,会被下游生成损失反向约束;


组件二结合想象和动作,即UFG 统一未来生成器,不用独立世界模型做视频预测、再用独立策略头做动作生成。


北京大学副教授穆亚东&北京大学&星源智团队


论文题目Extending Embodied Question Answering from Perception to Decision


大规模数据集EQA-Decision、对应的RoboDecision训练框架


探索方向:具身问答从静态感知扩展到动态决策


5月大模型杀疯:每2天出一款,比本体还多图12


EQA-Decision数据集拥有超过四百万个多模态问答对,数据来源横跨模拟环境、图像问答、第一人称视频和真实机器人轨迹四大类型。


RoboDecision训练框架有三个递进式训练阶段,分别是SFT(监督微调)、CoT-SFT(思维链监督微调)、GRPO(强化学习微调)。


为了实现GRPO阶段的最终目的,团队设计了一种混合奖励函数,包括推理奖励、答案奖励、视觉一致性奖励。


最具创新性的是视觉一致性奖励,它用OpenCLIP对齐生成的推理与视觉观察,确保模型的思考内容真正反映画面中的视觉证据,而非靠文本先验“瞎猜”。


Genesis AI


论文题目The Role of Simulation in Scalable Robotics, Genesis World 1.0, and the Path Forward 


Genesis World 1.0


探索方向:让仿真系统具备闭环评估能力。


5月28日,Genesis AI 发布 Genesis World 1.0,针对模型开发周期本身慢的问题,将仿真不仅仅是"数据生成器",更可以是机器人基础模型的评估与迭代引擎。


在现阶段,Genesis AI的目标是在不让任何仿真数据参与预训练的前提下,让仿真和真实世界之间建立强相关性。


其认为,当训练和评估共享同一份仿真分布时,模型表现的提升既可能反映"模型/数据配方真的更好了",也可能只是"对仿真器动力学拟合得更紧了"。


让两条管线保持解耦,才能拿到一个更干净的信号:判断哪些实验是真正在改进模型表现。


北京大学副教授穆亚东&星源智团队


论文题目RoboAgent: Chaining Basic Capabilities for Embodied Task Planning


RoboAgent方案


探索方向:机器人系统所面对的探索、定位、状态理解、动作解码和失败恢复等流程。


5月大模型杀疯:每2天出一款,比本体还多图13


针对VLM没办法进行具身路径规划这一问题,北京大学副教授穆亚东联合星源智团队提出RoboAgent方案。


它把具身路径规划拆成一系列更小的、VLM本来就擅长的视觉-语言子问题,类似在一个 scheduler 添加了EG(探索引导)、OG(物体定位)、SD(场景描述)、AD(动作解码)、ES(经验总结)5类能力。


一个值得注意的地方是,RoboAgent 没有把这些能力做成多个外部工具,也没有依赖封闭模型或独立模块拼接。Scheduler 和所有能力都由同一个 VLM 实现。模型只是通过不同 prompt、不同上下文和不同输入输出格式,在统一框架内扮演不同能力角色。



END— 

5月大模型杀疯:每2天出一款,比本体还多图14
活动广告
5月大模型杀疯:每2天出一款,比本体还多图15
5月大模型杀疯:每2天出一款,比本体还多图16

以上为广告
往期推荐:








5月大模型杀疯:每2天出一款,比本体还多图17
了解具体商务合作详情

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
大模型时代的新roofline
刚刚,华为发布大量AI新成果!余承东:要把盘古大模型做到世界第一
大模型时代的前馈高斯重建:AdaptSplat 如何用 Adapter 范式激活通用视觉先验?
刚刚,余承东发誓把盘古大模型做到世界第一
微信AI内测,折叠屏iPhone或仅推出白色版,阿里升级大模型组织架构,传阶跃星辰最快周一申请赴港IPO,这就是今天的其他大新闻!
余承东亲管华为大模型团队:我的字典里没有第二、只有第一
摩尔线程宣布开源MusaCoder:首个国产GPU全栈训练代码大模型!
首次系统定义「Token经济学」,浙大&阿里联合发布大模型Agent资源分配新范式
不光答疑提效!中科闻歌的通用决策大模型,还帮我预测了Anthropic、OpenAI谁先上市
阿里巴巴升级大模型组织架构,成立Token Foundry事业部
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号