蚂蚁灵波开源世界模型LingBot-World，交互式长视频生成能力对标Genie 3

【区角快讯】2026年1月29日，蚂蚁集团旗下灵波科技正式开源其最新世界模型LingBot-World，再度推动具身智能技术边界。该模型在视频画质、动态表现力、长时间序列一致性及人机交互响应等核心维度上，已达到与Google Genie 3相当的水平。

LingBot-World旨在构建一个高保真、高动态且支持实时操控的“数字演练场”，服务于具身智能系统研发、自动驾驶仿真训练以及互动游戏内容生成等前沿场景。针对生成式视频长期存在的“长时漂移”难题——即随时间推移出现物体变形、结构崩解或主体消失等问题——该模型通过多阶段协同训练与并行加速架构，成功实现近10分钟的连续稳定无损视频输出，为复杂多步骤任务提供可靠训练基础。

在交互性能方面，LingBot-World可维持约16帧每秒的生成吞吐率，并将端到端延迟压缩至1秒以内。用户既可通过键盘或鼠标实时操控角色移动与摄像机视角，也能借助文本指令触发环境变化，例如切换天气、调整视觉风格或生成特定事件，同时确保场景几何关系基本不变。

压力测试显示，在镜头最长离开60秒后重新聚焦，目标物体（如车辆、房屋）仍能保持存在性与结构完整性。此外，该模型具备Zero-shot泛化能力，仅凭单张真实照片（如城市街景）或游戏截图，即可生成可交互视频流，无需额外训练。

依托对“动作—环境变化”因果逻辑的理解，LingBot-World能在虚拟空间中模拟物理世界运行规律，为智能体提供低成本、高保真的试错平台。其支持的多样化场景生成（如光照与物体布局变化），亦有助于提升算法在现实环境中的适应性。

随着LingBot-Depth、LingBot-VLA与LingBot-World三款具身大模型相继发布，蚂蚁集团的通用人工智能（AGI）战略已从纯数字领域延伸至物理感知与交互层面，形成“基础模型—通用应用—实体交互”的完整技术路径。目前，该模型权重及推理代码已通过InclusionAI社区全面开源，邀全球开发者共建AGI生态。

世界模型正从“观看式生成”迈向“可操作世界”，LingBot-World的开源标志着中国企业在下一代智能基础设施竞争中迈出关键一步。