机器人保姆级丝滑干家务!九成数据靠仿真,清华系创企发首个具身基础模型

机器人前瞻 2025-07-04 13:39

极佳视界发布端到端具身基础模型GigaBrain-0 Preview。
作者 |  许丽思
编辑 |  漠影
机器人前瞻7月4日报道,今天,极佳视界发布具身基础模型GigaBrain-0 Preview,90%以上的训练数据来自该公司自研的世界模型平台,不到10%来自真机实采数据,成为全球首个主要依靠世界模型生成数据驱动的端到端VLA具身基础模型。
另外,该公司还将于近期发布面向具身智能方向的世界模型平台Preview版本。
极佳视界成立于2023年,是一家空间智能公司,致力于将视频生成提升到4D世界模型,使AI大模型具备对4D空间理解、生成、常识和推理能力,进而实现4D空间中交互和行动。
极佳视界创始人兼CEO黄冠是清华大学AI方向博士,拥有超过十年的AI技术和产业经验,曾在微软、三星、地平线等负责算法工作,拥有AI、自动驾驶等方向连续创业经验。
GigaBrain-0 Preview的执行过程如下:
    • 在输入端,对RGB图像与深度信息进行联合编码,提升模型对3D空间结构的理解能力以及对复杂场景的感知表征。
    • 在输出端,系统可利用多种感知模块的中间输出(2D框、3D框、6DoF抓取点,末端执行器轨迹等)作为多模态监督信号,增强决策过程的准确性和鲁棒性。
    • 引入了面向语言任务拆解的思维链(Chain-of-Thought,CoT)机制,将高层用户指令逐步解析为低层可执行的prompt,实现任务逻辑的结构化分解。与此同时,前序感知模块输出的中间结果也为CoT提供了空间推理所需的语义支持。
    • 低层执行prompt将激活对应的action expert模块,并通过降噪解码机制生成机器人可执行的动作序列,从而实现从感知到动作的完整控制。
    在多项复杂任务中,GigaBrain-0 Preview都表现不错。
    在叠衣服时,GigaBrain-0不仅可以丝滑精细的完成任意形态和多种款式的衣服自动叠放,而且在叠放过程中可以对中间状态进行主动思考,自动修正叠放方式和平整度。
    面对物品摆放混乱的餐桌,模型会自主推理最优策略,先思考餐盘怎么摆放,然后双臂协同完成垃圾清扫工作。就算人为再次随机丢弃垃圾,模型也能迅速识别并主动调整策略,反复清扫直至桌面整洁。


    在冲倒饮料这一类需要双臂协同完成长程任务中,GigaBrain VLA模型实现了对长程任务的子任务的自动拆分和模型指令遵循。此外,它还对动作进行了平滑性约束,以确保在饮料不洒出。
    模型还支持自然语音交互,比如用户只需一句话就可以触发餐具摆放任务。

    相比于真机的实际采集,基于世界模型的仿真2.0在数据获取效率上展现出明显优势,其生成效率可以达到真机采集的10-100倍以上。
    这种效率提升,不仅可以降低了数据采集的时间成本,还使得大规模、快速迭代的数据生成和模型迭代成为可能,为物理世界通用智能的训练和测试提供了支持。
    图片
    图片

    声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
    机器人
    Copyright © 2025 成都科技区角科技有限公司
    蜀ICP备2025143415号-1
      
    川公网安备51015602001305号