【区角快讯】2026年1月29日,蚂蚁集团旗下灵波科技正式开源其最新世界模型LingBot-World,再度推动具身智能技术边界。该模型在视频画质、动态表现力、长时间序列一致性及人机交互响应等核心维度上,已达到与Google Genie 3相当的水平。

LingBot-World旨在构建一个高保真、高动态且支持实时操控的“数字演练场”,服务于具身智能系统研发、自动驾驶仿真训练以及互动游戏内容生成等前沿场景。针对生成式视频长期存在的“长时漂移”难题——即随时间推移出现物体变形、结构崩解或主体消失等问题——该模型通过多阶段协同训练与并行加速架构,成功实现近10分钟的连续稳定无损视频输出,为复杂多步骤任务提供可靠训练基础。
在交互性能方面,LingBot-World可维持约16帧每秒的生成吞吐率,并将端到端延迟压缩至1秒以内。用户既可通过键盘或鼠标实时操控角色移动与摄像机视角,也能借助文本指令触发环境变化,例如切换天气、调整视觉风格或生成特定事件,同时确保场景几何关系基本不变。
压力测试显示,在镜头最长离开60秒后重新聚焦,目标物体(如车辆、房屋)仍能保持存在性与结构完整性。此外,该模型具备Zero-shot泛化能力,仅凭单张真实照片(如城市街景)或游戏截图,即可生成可交互视频流,无需额外训练。
依托对“动作—环境变化”因果逻辑的理解,LingBot-World能在虚拟空间中模拟物理世界运行规律,为智能体提供低成本、高保真的试错平台。其支持的多样化场景生成(如光照与物体布局变化),亦有助于提升算法在现实环境中的适应性。
随着LingBot-Depth、LingBot-VLA与LingBot-World三款具身大模型相继发布,蚂蚁集团的通用人工智能(AGI)战略已从纯数字领域延伸至物理感知与交互层面,形成“基础模型—通用应用—实体交互”的完整技术路径。目前,该模型权重及推理代码已通过InclusionAI社区全面开源,邀全球开发者共建AGI生态。
世界模型正从“观看式生成”迈向“可操作世界”,LingBot-World的开源标志着中国企业在下一代智能基础设施竞争中迈出关键一步。