基于大型VLM的VLA模型如何改一步一步推动机器人操作任务的发展?

具身智能之心 2025-08-26 08:00

资讯配图

点击下方卡片,关注“具身智能之心”公众号


编辑丨具身智能之心

本文只做学术分享,如有侵权,联系删文



>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

当机器人 “看懂” 指令还能 “自主干活”:大型 VLM 如何改写机器人操作的游戏规则?

你是否想象过这样的场景:对着机器人说一句 “把阳台晾干的衬衫叠好放进衣柜第三层”,它就能看懂衣物位置、理解 “叠好”“放进” 的动作逻辑,甚至避开衣柜里的杂物完成任务?放在几年前,这更像科幻电影里的情节 —— 传统机器人要么困在 “预定义任务牢笼” 里,换个新杯子就认不出;要么面对模糊的自然语言指令 “手足无措”,更别提在杂乱的真实环境里灵活调整动作。

但现在,一场由 “视觉 - 语言 - 动作(VLA)模型” 掀起的变革,正在打破这些局限。而这场变革的核心推手,正是我们如今耳熟能详的大型视觉语言模型(VLM)。

过去,机器人操作的研究总在 “模块化陷阱” 里打转:视觉识别、语言解析、动作控制各成一派,像被割裂的齿轮,很难协同运转。直到大型 VLMs 的出现 —— 这些在海量图文数据上 “吃透” 视觉与语言关联的模型,不仅能看懂图片里的细节、理解人类指令的深意,还能把这种 “理解” 转化为机器人能执行的动作逻辑。于是,基于大型 VLM 的 VLA 模型应运而生:它像给机器人装了 “通感大脑”,既能通过视觉捕捉环境动态,又能通过语言锚定任务目标,最终生成连贯、灵活的操作动作。比如让它 “把红色马克杯放到笔记本旁的书架上”,它能自动完成 “找杯子 - 判断位置 - 规划移动路径” 的全流程,甚至应对杯子被书本挡住的突发情况。

不过,这个快速发展的领域也藏着不少 “迷雾”:有人把 VLA 模型拆成多个模块,有人追求 “端到端” 的统一架构;数据集要么是模拟环境的 “理想数据”,要么是真实世界的 “零散样本”;更别提大家对 “如何让机器人记住过往动作、完成长期任务”“怎样让模型在不同机器人上通用” 这些问题,还没形成统一答案。

为了理清这些脉络,哈尔滨工业大学(深圳)的研究者们撰写了这篇《Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey》。它不仅是首个系统梳理 “大型 VLM + 机器人操作” 的综述,更像一张 “领域地图”—— 从 VLA 模型的定义、两种核心架构(单体式 / 分层式),到如何结合强化学习、从人类视频里学技能,再到未来要突破的 4D 感知、记忆机制等方向,都被清晰地呈现出来。

如果你想知道 VLA 模型如何让机器人从 “机械工具” 变成 “懂你意图的帮手”,想抓住这个领域的核心技术与未来机会,那么这份综述,正是打开大门的钥匙。

资讯配图

图1|本综述的组织大纲(上)和大型基于VLM的机器人操作视觉语言动作模型的显著发展的时间顺序时间表(下)。时间表突出了单体模型和分层模型的代表性里程碑,提供了该领域最近进展的视角。

作者: Rui Shao, Wei Li, Lingsen Zhang, Renshan Zhang, Zhiyang Liu, Ran Chen, Liqiang Nie

单位:哈尔滨工业大学(深圳)计算机学院

论文标题:Large VLM-based Vision-Language-Action Models for Robotic Manipulation: A Survey

论文链接:https://arxiv.org/abs/2508.13073

项目主页:https://github.com/JiuTian-VL/Large-VLM-based-VLA-for-Robotic-Manipulation

主要贡献

纵向梳理VLA模型发展脉络:系统回顾VLM的进化历程、机器人操作学习的技术进展及VLA范式的诞生,明确单体模型(Monolithic)与分层模型(Hierarchical)的发展路径,识别关键挑战并展望未来方向。

横向整合VLA建模实践:提出更精细的VLA模型分类体系(单体/分层),从结构与功能双维度深入分析两类模型,探索强化学习融合、无训练优化等前沿方向,总结支撑模型发展的数据集与核心特性。

解决领域研究痛点:统一VLA领域术语与建模假设,缓解跨学科(机器人学、计算机视觉、NLP)研究碎片化问题,填补“VLMs与机器人操作交叉领域”的系统性综述空白,并维护实时更新的项目页(https://github.com/JiuTian-VL/Large-VLM-based-VLA-for-Robotic-Manipulation)。

研究背景

视觉语言模型(VLMs)的进化

架构转型:从任务特定架构转向统一多模态框架(如LLaVA1.5、Qwen-VL),核心由“视觉编码器+特征投影器+大型语言模型”构成,可处理视觉问答、空间导航等复杂任务,且能通过视觉指令微调(如LLaVA用GPT-4生成15万对话样本)提升开放指令理解能力。

能力扩展:近年VLMs向多模态感知与推理升级,如LLaVA-OneVision统一图像/视频处理、Qwen-2VL支持动态分辨率、Vision-R1用强化学习优化推理链,为整合“动作生成”奠定基础。

资讯配图

图2|基于大型VLM的机器人操作视觉语言动作(VLA)模型的核心优势。基于VLM的大型VLA模型利用了大型视觉语言模型的优势,包括:(1)开放世界泛化,(2)分层任务规划,(3)知识增强推理,(4)丰富的多模态融合。

机器人操作技术的进展

早期局限:传统方法依赖分离的视觉编码器、语言模块与规划器(如CLIPort用CLIP做语义接地、RT-1用CNN+独立语言嵌入),泛化性差,难以处理未知物体或模糊指令。

VLA模型突破:以RT-2为代表,将机器人动作离散化为文本token,与VLM(PaLM-E/PaLI-X)共训练,实现“视觉-语言-动作”统一建模;后续OpenVLA(7B参数开源模型)、π₀(流匹配架构)进一步提升泛化性与可访问性。

现有综述的不足

  • 多单独聚焦VLMs或机器人操作,缺乏对“VLMs与机器人操作交叉领域”的深入分析

  • 未聚焦“预训练VLM作为基础组件”的主流范式

  • 因覆盖自动驾驶、农业等多领域,稀释了机器人操作特有的实时控制、传感器噪声鲁棒性等挑战

  • 仅关注文本LLM的任务规划,未解决VLM在视觉感知与动作接地的核心问题

研究动机

传统机器人操作的瓶颈:依赖预定义任务规格与刚性控制策略,在非结构化场景(如未知物体、动态环境、模糊自然语言指令)中泛化性与扩展性极差。

VLA模型的潜力:基于预训练VLMs的VLA模型,可复用VLMs的开放世界泛化、分层任务规划、知识增强推理、多模态融合能力,让机器人理解高层指令、识别未知环境并执行复杂操纵任务(如“将红色马克杯放在笔记本电脑旁的顶层架子上”)。

领域研究的碎片化:VLA领域术语不一致、跨学科研究分散,缺乏系统性框架整合现有成果,亟需一篇综述明确模型定义、分类与未来方向。

研究内容

总体框架:VLA模型的定义与分类

定义:满足两个核心条件的模型:① 利用大型VLM理解视觉观测与自然语言指令;② 执行直接/间接服务于机器人动作生成的推理过程。

核心分类:根据“系统整合粒度”与“认知分解显式性”,分为两大类:

  • 单体模型(Monolithic):将感知、语言理解、动作生成整合于单一/双系统架构,无显式中间表示;

  • 分层模型(Hierarchical):显式分离“规划”与“执行”,通过人类可解释的中间表示(如子任务、关键点、程序)连接规划器与策略器。

资讯配图

图3|基于VLM的两大类大型VLA模型的比较。单体模型在单系统或双系统架构中集成了感知、语言理解和动作生成,后者包含了一个额外的动作专家。相反,分层模型通过可解释的中间输出(例如,子任务、关键点、程序、功能支持)将规划与策略执行解耦。

单体模型(Monolithic Models)

单系统模型(Single-system Models)

核心思想:视觉感知、语言指令、机器人状态输入统一模型,通过自回归/并行解码输出动作,架构简洁且无复杂模块通信。

资讯配图

图4|单系统VLA模型。在LLM / VLM列中,省略V-Encoder表示VLM;否则表示LLM。在学习列中,“AD”表示自回归解码,“PD”表示并行解码。“SFT”表示与动作预测模仿学习不同的微调,在动作预测模仿学习中,字幕、VQA、推理等任务都属于SFT。括号中的“A”和“B”代表Action head或Backbone使用的学习方法。

三大研究方向

  • 经典范式:自回归解码

方法:将连续动作空间离散化为token序列,VLM 自回归生成动作token,再通过解令牌器转换为可执行动作。

代表技术:

RT-2 :以PaLM-E/PaLI-X为VLM骨干,训练互联网视觉语言数据与机器人轨迹,将动作视为语言任务,显著提升语义理解与泛化性;

RT-2-X :在RT-2基础上,用Open X-Embodiment(OXE)跨机器人数据集微调,提升技能迁移能力;

OpenVLA :用DINOv2+SigLIP替代大参数视觉编码器,基于LLaMA2-7B,在真实机器人演示数据上微调,开源且性能优异。

  • 模型性能增强

感知模态扩展:加入3D(Leo Agent 用PointNet++处理点云、SpatialVLA通过深度估计生成3D坐标)、4D(TraceVLA叠加运动轨迹、4D-VLA 整合3D坐标与历史关键帧)、触觉/听觉(VTLA融合触觉、VLAS 用Whisper提取语音);

推理能力提升:引入思维链(ECoT生成推理链、CoT-VLA 预测像素级子目标观测)、分层闭环控制(LoHoVLA 处理长程任务)

泛化性优化:统一动作空间(UniAct定义通用动作码本)、可逆训练(ReVLA恢复视觉编码器预训练状态以减少灾难性遗忘)、多模态融合(FuSe 用自然语言对齐触觉/听觉)。

代表技术:Leo Agent 、TraceVLA、CoT-VLA、UniAct、VTLA 。

  • 推理效率优化

方法:从架构、参数、解码策略三方面降低推理开销。

架构优化:动态层跳过(MoLe-VLA用STAR路由器选择关键LLM层)、早期退出(DeeR-VLA 通过输出一致性判断是否终止推理)、Mamba架构(RoboMamba 实现Transformer的推理速度的三倍);

参数优化:模型压缩(BitVLA 用‘1-bit’权重、NORA 设计小参数模型);

解码加速:并行解码(PD-VLA 将自回归转为不动点迭代、RoboFlamingo 用独立MLP动作头)、投机解码(Spec-VLA速度提升1.42倍)、动作复用(FlashVLA稳定场景下跳过推理)。

代表技术:RoboMamba、DeeR-VLA 、BitVLA 、PD-VLA 、FlashVLA。

资讯配图

图5|单系统模型中代表性范例的比较。

双系统模型(Dual-system Models)

核心思想:分离“高层推理(System 2:VLM骨干)”与“低层动作生成(System 1:动作专家)”,平衡推理精度与实时性,无显式中间表示(区别于分层模型)。

两大研究方向

  • 级联式(Cascade-based)

方法:System 2处理多模态输入生成 latent 认知表示,再传递给System 1解码为动作,串行执行。

代表技术

DP-VLA :用OpenVLA为System 2,Behavioral Cloning Transformer为System 1,兼顾效率与性能;

HiRT:System 2低频运行(理解场景),轻量级System 1高频控制,适配动态环境;

TriVLA :新增“世界动态感知模块”(System 3),补充静态感知的不足。

资讯配图

图6|双系统模型中代表性范式的比较。

  • 并行式(Parallel-based)

方法:System 2与System 1并行运行,通过共享注意力/交叉注意力交互信息。

代表技术:

π₀ :以PaliGemma为预训练VLM(System 2),训练流匹配(Flow Matching)动作专家(System 1),支持零样本泛化;

SmolVLA :冻结轻量级SmolVLM-2(System 2),仅训练下游流匹配Transformer(System 1),提升效率;

ForceVLA :在π₀基础上加入MoE结构的力感知模块,优化接触密集型操纵。

资讯配图

图7|双系统VLA模型。“System 2骨干网”列列出了双系统方法中作为System 2组件的VLM骨干网。“系统1学习”一栏列出了作为系统1的行动专家使用的学习方法。“Diff.”表示基于扩散的学习,“FM”表示流匹配,“MSE”表示均方误差,“BCE”表示二元交叉熵,“AR”表示自回归学习。

分层模型(Hierarchical Models)

资讯配图

图8|分层VLA模型。“Type”列表示规划器的输出类型,其中“K”表示Keypoint,“S”表示Subtask,“P”表示Program。“学习”一栏表示模型采用的学习方法,其中“SFT”指监督微调,“RL”指强化学习,“IM”指模仿学习,“API”是一种特殊情况,指调用已有模型。

资讯配图

图9|显示本次调查中分层模型的图表。这些模型根据其构成分为两类,即“仅规划器”和“规划器+策略器”。根据中间表示类型,一类可以进一步分为基于子任务的(S)、基于关键点的(K)和基于程序的(P)。“(A)”表示为辅助目的组合功能的方法。

仅规划器(Planner-Only)

核心思想:规划器生成人类可解释的中间表示,依赖现成(off-the-shelf)策略器执行动作,仅聚焦规划器设计。

三大研究方向

  • 基于程序(Program-based)

方法:规划器生成“机器人可执行程序”或“辅助策略理解的程序”。

代表技术:

Chain-of-Modality :多模态对话生成Python程序控制机器人;

Instruct2Act :生成调用API的Python代码;

RoVI :生成辅助程序,通过平移/旋转成本决议执行;

ReLEP :用带记忆库的VLM分解任务为技能库中的基础技能,生成辅助程序。

  • 基于关键点(Keypoint-based)

方法:规划器预测场景中的显著关键点(如抓手目标位置、物体交互区域)。

代表技术:

MoManipVLA :VLA预测关键路点,通过双层轨迹优化生成动作;

RoboPoint :解析自然语言生成视觉关键点;

ManipLVM-R1 :用GRPO训练VLM,同时预测抓取可行域与物体轨迹;

RoboBrain :LLaVA做高层规划,A-LoRA识别交互区域,T-LoRA预测轨迹路点。

  • 基于子任务(Subtask-based)

方法:规划器将高层指令分解为步骤化文本子任务。

代表技术:

PaLM-E :LLaVA风格VLM,统一VQA与机器人指令生成;

Embodied-Reasoner :引入“观测-思考-动作”轨迹,支持空间分析与验证;

Reinforced Planning :SFT+GRPO强化学习,提升泛化性;

ViLA :用GPT-4V生成候选任务计划,仅执行第一个指令。

规划器+策略器(Planner+Policy)

核心思想:规划器生成中间表示,策略器接收该表示并生成可执行动作,端到端优化规划与执行。

两大研究方向

  • 基于关键点(Keypoint-based)

方法:规划器预测空间基元(如离散关键点、2D路径),策略器生成连续轨迹。

代表技术:

HAMSTER :预测轨迹关键点并生成渐变色路径,指导策略执行;

ReKep :DINOv2+SAM生成关键点,GPT-4o转为成本函数,优化为动作;

A₀ :规划器预测接触点与接触后运动,策略器转换为控制信号。

  • 基于子任务(Subtask-based)

方法:规划器分解子任务,策略器接收子任务token生成动作。

代表技术:

HiRobot :规划器将开放指令分解为原子命令,策略器执行;

DexVLA :VLM规划器+扩散动作策略器,擅长长程复杂任务;

PointVLA :在DexVLA基础上加入点云编码器,提升空间感知;

RoBridge :规划器生成原始动作文本指令,构建“不变可操作表示”供策略器执行;

RoboMatrix :三层架构(调度层生成子任务、技能层选择行为、硬件层控制)。

其他先进领域

资讯配图

图10|代表性的VLA方法分为四个高级类别:基于强化学习、无训练、从人类视频中学习和基于世界模型的方法。

基于强化学习(RL-based Methods)

核心思想:通过在线交互(实时优化)或离线轨迹(预收集数据)优化VLA策略,解决奖励稀疏、样本效率低问题。

代表技术:

奖励设计:VLA-RL 训练机器人过程奖励模型(RPRM)、ReWiND 以“目标进度”为奖励、Grape用VLM生成反馈奖励;

训练范式:ReWiND(离线IQL+在线SAC)、HIL-SERL(人类在环干预)、ConRFT (离线Cal-ConRFT+在线HIL-ConRFT);

数据引擎:RLDG (训练专家策略后蒸馏到基础模型)、iRe-VLA(在线RL收集轨迹+SFT迭代优化)。

无训练方法(Training-Free Methods)

核心思想:通过架构/计算优化提升VLA效率,无需重新训练,保留原模型能力。

代表技术:

令牌优化:FlashVLA (稳定场景跳过解码)、EfficientVLA (剪枝冗余语言层+过滤视觉令牌);

解码加速:PD-VLA (并行不动点迭代)、FAST(DCT+字节对编码压缩动作序列);

调度优化:RTC (监控任务进度调整控制频率)。

从人类视频学习(Learning from Human Videos)

核心思想:利用人类-物体交互与机器人-物体交互的结构相似性,从人类视频中迁移任务知识,缩小embodiment gap。

代表技术:

Human-Robot Semantic Alignment :用人类-机器人配对视频对齐视觉编码器;

UniVLA :从无标注人类/机器人视频学习任务中心 latent 动作;

LAPA :VQ-VAE量化 latent 动作,在大规模视频-语言数据上预训练;

3D-VLA :融合人类交互视频与机器人演示,提升3D推理;

Humanoid-VLA :从在线视频恢复姿态轨迹,增强运动多样性。

基于世界模型(World Model-based VLA)

核心思想:整合世界模型(预测环境动态的紧凑表示),通过模拟未来状态优化动作规划,提升长程任务能力。

代表技术:

WorldVLA :自回归动作-世界模型,联合预测视觉结果与生成动作;

World4Omni :大规模世界模型生成子目标图像,指导低层级策略;

3D-VLA :生成式世界模型预测未来目标图像与点云;

V-JEPA 2-AC :基于互联网规模视频训练的动作条件世界模型,通过模拟未来 latent 状态做规划。

资讯配图

图11|VLA的代表性RL进路。✓代表在线,而✗代表离线。“S”代表稀疏奖励,“D”代表密集奖励,“RM”代表预训练。其中,“GPT”表示GPT给出的奖励,“TC”表示基于任务完成的奖励函数。

VLA 模型的特征

VLA 模型区别于传统机器人操作模型的核心能力:

多模态融合:通过统一嵌入与动态整合打破模态壁垒。一是构建 “共享嵌入空间”,依托预训练 VLM 生成视觉与语言的联合嵌入,减少模块间语义偏移;二是实现 “令牌级整合”,将视觉、语言、动作等连续模态离散为令牌,由单个 Transformer 处理以捕捉跨模态依赖;三是具备 “全面模态兼容性”,可无缝整合点云(如 PointVLA)、触觉(如 VTLA)、音频(如 VLAS)等新模态,无需修改核心架构或全量重训。

指令遵循:依托语义理解与推理实现灵活指令响应。一是 “语义指令定位”,利用 VLM 世界知识动态解读模糊指令,如 ChatVLA-2 可理解白板上的数学问题并选择数字卡片;二是 “任务分解与协作”,将长期任务拆分为子目标,如 LoHoVLA 生成自然语言子任务指导动作;三是 “思维链推理”,通过预测未来视觉状态(如 CoT-VLA)缓解短视幻觉,提升复杂任务可靠性。

多维度泛化:实现跨任务、跨领域、跨载体的广泛适配。一是 “跨任务泛化”,如 DexVLA 无需任务调优即可完成多样操作,性能超越 OpenVLA;二是 “跨领域泛化”,如 π₀ 通过异构数据联合训练,在家庭环境中分布外任务成功率超 90%;三是 “跨载体与模拟到现实泛化”,如 HAMSTER 依托分层架构,在七个泛化维度上成功率比 OpenVLA 高 20%。

数据集与基准测试

真实世界机器人数据集

特点:捕捉真实环境复杂性,支持语言与动作对齐。但开放世界物体、场景、技能的长尾分布仍未充分覆盖。

典型案例:

OXE(整合 22 个机器人平台的 100 万 + 多模态演示)

RH20T(支持 147 项任务单样本学习)

DROID(含 564 项 “自然场景” 远程操作演示)

模拟数据集与基准测试

特点:提供可扩展、安全的训练环境,降低真实数据采集成本。但存在物理模拟不完美、视觉伪影等局限。

典型案例:

BEHAVIOR(支持杂乱家庭环境多步骤控制)

CALVIN(支持无约束语言指令下的长期操作)

SIMPLER(通过校准环境减少模拟到现实差距)

人类行为数据集

特点:提供语义丰富的人类交互先验,辅助 VLA 理解操作逻辑;可帮助 VLA 学习目标识别、动作序列与任务分解。

典型案例:

Ego4D(3000 小时第一视角视频)

EPIC-Kitchens(细粒度烹饪任务视频)

EgoDex(829 小时含 3D 手部追踪的第一视角视频)

具身数据集与基准测试

特点:聚焦 VLA 的规划与推理能力评估,推动从 “操作” 向 “认知 + 操作” 升级。为高层语义规划提供严格评估标准。

典型案例:

OpenEQA(评估功能与常识推理)

LoTa-Bench(验证 LLM 生成规划的可执行性)

MT-EQA(支持多目标推理)

资讯配图

图12|四种数据集类型,支持用于机器人操作的基于VLM的大型VLA模型。

未来方向

  1. 数据集与基准测试优化:需结合大规模真实世界数据采集与复杂任务套件(如长期规划、移动操作),引入子任务成功率、时间效率、抗干扰性等多维度评估指标,解决现有数据 “现实差距” 与基准 “任务单一” 问题。

  2. 记忆机制与长期规划:设计具备情景感知的记忆架构,让 VLA 可利用历史观测信息,从 “逐帧反应” 转向 “目标驱动的长期连贯动作”,解决当前模型短视行为问题。

  3. 3D 与 4D 感知升级:突破静态 2D 视觉输入局限,整合深度、点云数据实现 3D 空间理解,结合时间动态信息构建 4D 感知,提升复杂环境操作稳健性。

  4. 移动操作整合:打破 “移动” 与 “操作” 的阶段分离,学习自适应优先的整合策略,实现机器人同时完成 locomotion 与交互操作,适配真实世界动态场景需求。

  5. 多智能体协作:构建共享世界模型与涌现式对话协议,让多个 VLA 智能体可协商意图、分配子任务(如联合搬运物体、协作使用工具),解决单智能体在复杂协作任务中的能力局限。

  6. 开放世界终身学习:设计增量知识积累机制与抗遗忘记忆结构,让 VLA 可在开放环境中通过探索与反馈持续学习新技能、适应未知物体与交互方式,突破静态数据集训练的局限。

  7. 模型效率提升:通过任务感知动态令牌修剪、异步推理、硬件友好量化,平衡模型容量与实时推理需求,适配资源受限的机器人平台。

结论

基于大型 VLM 的 VLA 模型已成为机器人操作与具身 AI 领域的关键突破方向,其发展核心在于:①构建了 “单体式 - 分层式” 二元分类体系,明确单系统 / 双系统与仅规划器 / 规划器 - 策略的架构差异,解决领域分类混乱与研究碎片化问题;②整合多模态融合、指令遵循、多维度泛化等核心特征,形成 “感知 - 语言 - 动作” 协同的技术框架,同时梳理了真实世界、模拟、人类行为、具身四类支撑数据集与基准;③推动强化学习、世界模型等技术与 VLA 模型深度结合,为复杂环境操作提供新路径。

当前领域仍存在”跨载体自适应不足、真实部署扩展性有限、高层推理与低层执行耦合松散、人类演示利用不充分“等关键挑战。未来需以 “多模态大语料拓展、模块化控制优化、真实场景适配、互联网级人类演示融合” 为重点,进一步打通 “视觉理解 - 语言解析 - 动作生成” 的全链路,推动 VLA 模型成为统一感知、语言与动作的具身 AI 基础,助力机器人操作走向更广泛的现实应用。


资讯配图



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
机器人
more
机器人与仿生国家标准技术研讨与实施推广大会在蓉召开
黄仁勋送出“新大脑”,哪些国产机器人第一时间用上了
英伟达机器人“新大脑”来了,售价2.5万元!
一图读懂|人工智能、具身智能、人形机器人的差别
人机协同新篇章--Hexagon发布《机器人未来2035》报告
英伟达新大脑来了,为什么大厂争先恐后给机器人做脑子?
基于 NVIDIA Blackwell 的 Jetson Thor 现已发售,加速通用机器人时代的到来
超160万台订单!割草机器人撬开激光雷达新战场
刚刚,英伟达推最强人形机器人“大脑”,AI性能暴涨7.5倍,算力飙到2070 TFLOPS
Kriket 3000 :从复古未来主义世界回来的人形机器人 | CyberRobo
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号