蚂蚁灵波开源世界模型LingBot-World,交互式长视频生成能力对标Genie 3

科技区角 2026-01-29 11:00

【区角快讯】2026年1月29日,蚂蚁集团旗下灵波科技正式开源其最新世界模型LingBot-World,再度推动具身智能技术边界。该模型在视频画质、动态表现力、长时间序列一致性及人机交互响应等核心维度上,已达到与Google Genie 3相当的水平。



LingBot-World旨在构建一个高保真、高动态且支持实时操控的“数字演练场”,服务于具身智能系统研发、自动驾驶仿真训练以及互动游戏内容生成等前沿场景。针对生成式视频长期存在的“长时漂移”难题——即随时间推移出现物体变形、结构崩解或主体消失等问题——该模型通过多阶段协同训练与并行加速架构,成功实现近10分钟的连续稳定无损视频输出,为复杂多步骤任务提供可靠训练基础。

在交互性能方面,LingBot-World可维持约16帧每秒的生成吞吐率,并将端到端延迟压缩至1秒以内。用户既可通过键盘或鼠标实时操控角色移动与摄像机视角,也能借助文本指令触发环境变化,例如切换天气、调整视觉风格或生成特定事件,同时确保场景几何关系基本不变。

压力测试显示,在镜头最长离开60秒后重新聚焦,目标物体(如车辆、房屋)仍能保持存在性与结构完整性。此外,该模型具备Zero-shot泛化能力,仅凭单张真实照片(如城市街景)或游戏截图,即可生成可交互视频流,无需额外训练。

依托对“动作—环境变化”因果逻辑的理解,LingBot-World能在虚拟空间中模拟物理世界运行规律,为智能体提供低成本、高保真的试错平台。其支持的多样化场景生成(如光照与物体布局变化),亦有助于提升算法在现实环境中的适应性。

随着LingBot-Depth、LingBot-VLA与LingBot-World三款具身大模型相继发布,蚂蚁集团的通用人工智能(AGI)战略已从纯数字领域延伸至物理感知与交互层面,形成“基础模型—通用应用—实体交互”的完整技术路径。目前,该模型权重及推理代码已通过InclusionAI社区全面开源,邀全球开发者共建AGI生态。

世界模型正从“观看式生成”迈向“可操作世界”,LingBot-World的开源标志着中国企业在下一代智能基础设施竞争中迈出关键一步。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
自回归因果注意力也能并行解码?上交联合UCSD突破LLM推理瓶颈,模型代码全开源
蚂蚁再把医疗AI卷出新高度!蚂蚁·安诊儿医疗大模型开源即SOTA
英伟达发布并开源Alpamayo:自动驾驶终于开始讲道理了|甲子光年
SURF:SLAC 开源 FPGA 与 ASIC 通用 RTL 框架详解
百度开源全新OCR模型PaddleOCR-VL-1.5,性能超越DeepSeek-OCR2
超越π0.5近20%!生成与机器人控制深度结合,蚂蚁灵波开源具身世界模型LingBot-VA
刚刚,谷歌DeepMind登Nature封面!人类40亿年生命代码「开源」了
刚刚,DeepSeek又探索新架构了,开源OCR 2
智谱发布开源轻量级大模型GLM-4.7-Flash,聚焦高效部署与多场景应用
智能体推理能力新标杆!美团开源560B MOE模型LongCat-Flash-Thinking-2601
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号