
作者:吕鑫燚
出品:具身研习社
春晚聚光灯照亮了具身智能一个显性的变化。
2025年,宇树H1的亮相尚处于技术验证阶段。彼时,其仅能完成基础舞蹈动作,运动控制能力缺乏集中化展示,整机动态轨迹的流畅度不足,且在自主移动与地面适应性上存在不足之处,表明人形机器人从实验室技术向实用化产品转型的阶段性瓶颈。
进入2026年马年春晚,宇树携G1与H2两款人形机器人重磅登场,以全球首次全自主人形机器人集群武术表演刷新行业认知。16台机器人组成的集群实现了快速跑位,完成醉拳、双截棍、舞剑等高难度武术动作,手持长棍与武术表演者精准配合,并实现道具的快速更换与稳定抓持。

短短一年间,无论是运动控制还是操作轨迹丝滑度和群体协同,具身智能都展现了质的飞跃。
舞台之外,具身智能的作业智能也迈过涌现时刻,核心突破在于长序列任务执行与柔性物体操控两大技术难点的规模化落地。尤其是已经出色完成行业公认的高难度任务动作“叠衣服”。该动作涉及柔性形变感知、时序动作规划、精细力控反馈等全链路挑战,是具身智能从结构化场景走向非结构化场景的关键壁垒。
在我们惊叹于机器人高难度动作时,更值得穿透“炫技”表象,探究其背后的产业范式革命。最核心的疑问在于:机器人的能力跃升,仅仅是技术参数的堆砌吗?
答案显然是否定的。
无论是通过umi等方式缓解“数据饥渴”,还是借助闭环反馈填平“虚实鸿沟”,这些技术迭代都只是具身智能跃迁的“表层切面”。真正推动行业质变的,是底层思考逻辑的根本性重构。机器人正在告别“照猫画虎”的模仿学习路径,转向“理解世界、预判未来”的模式。
用一个通俗的热梗形容,人形机器人乃至整个具身智能领域,正在集体“开智”。
不过,这场“开智”革命并非单一路径的胜利。当下,支撑这一范式转变的技术路线已分化为几大核心派系,不同技术逻辑的碰撞与融合,正共同定义着具身智能的产业走向。

“开智”的核心锚点在于其智能基座——模型。作为控制感知、决策与执行的“神经中枢”,模型的架构设计直接决定机器人理解物理世界、适配复杂任务的能力边界,而这场关于“如何让机器人真正开智”的产业竞赛,正围绕VLA架构的演进与争议进入深水区。
行业曾形成明确共识:人形机器人的能力突破离不开端到端VLA(Vision-Language-Action,视觉-语言-动作)架构的核心驱动。这种通过融合视觉感知、语言理解与动作生成三大模态,打破了传统“感知- 规划 - 控制”分层架构的信息损耗难题,实现端到端闭环。

谷歌DeepMind、智元机器人等中外企业的技术落地,印证了其在结构化场景中适配准确率,也逐步成为人形机器人从实验室走向商业化的核心技术底座。
但随着需求侧向非结构化场景、长序列复杂任务的延伸,VLA架构的“万金油”属性逐渐失效。
例如,王兴兴就曾评价行业常见的VLA模型,属于“傻瓜式架构”,对这类模型持怀疑态度。此外,多个业内人士也开始讨论VLA模型究竟是具身智能的终局,还是一种阶段性的过渡方案。
其实这些争议看起来是“口水战”,但其焦点最终汇聚于一个核心命题:“VLA中的 L(语言)是否必要?”这场行业思辨的蔓延,本质是对具身智能底层逻辑的重新审视。
此前业内过度关注语言的必要性,是从LLM中吸取的成功经验,但具身智能需要和物理世界进行真正的交互,而这种交互的骨架是否依旧为语言,目前尚不得知。李飞飞在a16z播客访谈中曾提到,“语言从根本上来说是一种纯粹生成的信号,世界上本没有语言”

星海图CTO 赵行表示,具身智能需要平行于大语言模型的“Large Action Model”,这类模型要以“动作”为核心,而非语言。他解释道,人类智能的进化是“先有动作、再有视觉、最后有语言”,机器人要适应物理世界,也应该遵循类似逻辑。
这场架构之争的本质,无关单一技术路线的优劣,而指向一个更根本的产业命题:机器人到底该以何种方式理解世界?是通过人类语言这一“间接符号”,还是通过动作与环境的 “直接交互”构建认知?或者是以世界模型为核心,让机器人在自己世界里“脑补”动作流,进而更丝滑的在真实世界执行?
业内逐渐形成的共识是,具身智能的终局架构,必然是对物理世界认知逻辑的精准抽象。它可能保留VLA架构的跨模态融合优势,也可能剥离冗余的语言中介,但其核心必须适配机器人作为物理实体的交互本质,实现“感知-决策-执行”与物理世界规律的深度对齐。

由此可见,当业内在寻找下一个模型架构时,模型的打开方式成为重中之重。即我们该如何知道机器人究竟需要什么样的模型架构?
答案早已藏在机器人落地的底层逻辑中:那些真正转化为生产力的人形机器人,无不是听懂了场景诉求、从真实交互中生长而来;模型架构的进化,同样需要回归机器人与世界对话的原生方式。
说白了,机器人到底该如何理解世界,这个事机器人自己已经给出答案了。
机器人在真实工作场景中,无论是叠衣服还是拧螺丝,其本质都是要具备“长时序记忆与实时反馈能力”“动态场景的随机应变能力”。这两大能力的核心,绝非简单的“记住过往数据”,而是“预判未来状态”。
举个例子,人类执行叠衣服、装配零件等任务时,不会逐帧依赖视觉反馈,而是会基于物理常识预判下一步动作的结果:叠衬衫时提前预判布料的褶皱走向,拧螺丝时预判扭矩达到阈值后的状态。机器人要实现同样的“丝滑操作”,关键便在于将“记忆”升级为“预测”,通过模型推演未来多帧的场景变化与动作后果。
这些重点不在于“记住”而是“预测”。
谁能捏准这个逻辑,谁才是真正把机器人模型架构这个事玩明白了。蚂蚁灵波开源的具身世界模型LingBot-VA,就是将“先预测、再动作” 的架构逻辑推向极致。
该模型创新性地提出自回归视频-动作世界建模框架,核心突破在于将“预测世界状态” 与 “生成动作序列” 深度绑定,实现了“边预测,边动作”。简单来说就是,该模型不再是机械地执行预设指令,而是在每一步操作时,大脑都在实时推演接下来的画面。

想象一下你在干精细活之前,是不是脑海里已经知道每一个步骤该怎么做,也知道这个动作完事后物体会有什么样的变化。
LingBot-VA不止和人类思维模式相同。其工作中的特性,也和人类高度重合。能记住自己刚刚干了什么,还能真正拥有泛化,和人类一样学会了洗盘子,就会洗碗,做到举一反三。就连清洗细小的透明试管的高精度任务,LingBot-VA加持下机器人已经是可以轻松拿捏。
英伟达的DreamGen,也是同样的路子,先生成视频,再反推动作。它把基础模型架构分为上下两个部分,上半部分是一个视频模型,负责预测未来;下半部分负责看着预测出来的视频,反推并输出动作。
插个题外话,英伟达DreamGen推出时,有业内人士曾评价这是一条被寄予厚望的技术路线。不过从当下的视角来看,其也没有跑通闭环。
问题出在哪?现实世界是充满变量的,一旦机器人在执行中出现微小的物理偏差(比如手滑了一下),由于视频是提前生成好的,模型无法实时修正画面,机器人只能硬着头皮按原计划走,导致“脑子想的和手做的”彻底脱节。
不过,这并不代表DreamGen是一次失败的尝试。相反,它的出现从产业层面印证了一个关键判断:世界模型是机器人在真实物理世界作业的核心支撑,只是在当时尚未抵达产业临界点。而LingBot-VA的问世,才真正补齐了最后一块短板,成为具身世界模型完整闭环跑通的标志性拐点。
归根结底,“用机器人的视角打开世界”,本质是让模型架构回归物理世界的本质规律,机器人不需要像人类一样通过语言理解“重力”“摩擦力”,但需要通过预测能力感知这些物理规则;不需要记住每一个场景的操作参数,但需要能推演不同场景下的动作后果。
这种以“预测”为核心的架构逻辑,恰好契合了机器人与物理世界交互的原生需求:摆脱对人类认知中介(语言)的依赖,直接通过“预测-行动”的闭环,建立与世界的直接连接。
而这,正是具身智能走向“适配世界”的重要跨越。

从现在的视角来看,我们该思考的并不囿于LingBot-VA架构,而是这条架构跑通后,具身智能将迎来什么样的革新。
一个清晰的变化是,具身世界模型有望成为具身智能关键能力,也是具身智能的重要基座。
支撑这一转变的是其融合了“世界模型”与 “物理动作反馈闭环”。这并非简单的技术叠加,而是深度融合。世界模型为机器人搭建起可预判、可推演的虚拟世界,提前模拟动作后果与环境变化;物理动作反馈则将现实交互中的数据实时回灌模型,持续校准虚拟与现实的偏差,形成自进化闭环。
它不仅从根源上重构了机器人理解物理世界的底层逻辑,让机器人摆脱对人工指令、标注数据与固定轨迹的依赖,更成为破解非结构化场景适配难、长时序任务稳定性差、柔性操作精度不足等行业落地瓶颈的核心能力支柱。
站在产业视角审视,我们不应该否认VLA的贡献,也不能盲目推崇VA的未来。而是站在机器人的视角来看世界,听机器人自己说需要什么样的模型架构。
这场模型架构变革,是产业更清醒的信号之一,也是具身智能走向规模化商用的关键一跃。模型架构的底层突破,直接决定了机器人的泛化能力、作业精度与落地成本,将推动行业从舞台化的技术展示,走向工业、家政、特种作业等真实场景的生产力释放;也将为整机研发、场景方案、商业化落地划定清晰的技术主线。