近日,全球知名增长咨询公司沙利文发布《2025年中国世界模型发展白皮书》报告。沙利文在报告中指出,中国世界模型领域玩家已经超过10家企业,从技术产品、应用能力以及生态建设三方面进行综合评价,商汤“绝影开悟”世界模型位居榜单第一,并处于全球领先地位。

尽管许多车企都在争前恐后地说自己的智驾多么领先,但是在实际使用时,我们还是会发现它的真实水平与车企所宣传的差异非常大,天气、光照和极限场景都会导致驾驶水平出现较大的浮动。
同时,由于智驾 AI 训练需要看大量的视频(Clips),训练成本相比简单的文本生成模型也大得多,目前只有极少数头部车企才有足够的资源训练自有模型。

AI 配图
然而众所周知,羊毛出在羊身上,这些成本又会转嫁到消费者身上,最终消费者要么明着花几万购买使用权(比如特斯拉 FSD),要么就在车价中支付了,总之从厂商到消费者,大家的负担都很大。
接下来,老狐就给用轻松、易懂的方式,解读一下“绝影开悟”世界模型究竟是什么?它为什么能够解决这些问题,以及大家最感兴趣的:商汤绝影为什么能够做出如此强大的世界模型。
绝影开悟是什么?
正如介绍 DeepSeek R1 之前需要介绍推理模型是什么,在介绍绝影开悟之前,老狐认为也需要先介绍一下什么是世界模型,让狐友们能够更好地理解它。
就像商汤绝影 CEO 王晓刚在汽车之家全球AI科技大会讲到的那样:智能驾驶 1.0 阶段是依赖人工标注的“规则式智驾”;现在发展到 2.0 阶段,是把人类行为积累转化成为模型的“端到端智驾”;最终正迈向 3.0 阶段,就是通过世界模型和强化学习带来超越人类的“生成式智驾”。

怎么理解“生成式智驾”?我们日常使用的 DeepSeek、豆包和文心一言,在 AI 大模型领域的分类名是大型语言模型,其主要功能是通过输入的文本、音频和图片生成自然语言,对真实物理环境和物理动作并不具备直接的模拟预测能力。
而世界模型就很不一样了,从名字上就能看出它的核心功能是让自身具备模拟、预测真实物理环境的能力,就像是给 AI 在脑中建立一个真实、能够用数据演算的物理世界。

比如当世界模型在开车的时候,如果它发现,右侧有一辆车,它想要知道自己保持当前车速,右侧的车会不会并过来,它就能够在脑中迅速地演算、模拟未来几秒钟可能发生的所有情况,并做出最正确的驾驶动作调整,比人类老司机的驾驶预判水平更上一层楼。

AI 配图
在如今智驾 AI 训练所需的高质量真实数据日渐耗尽,同时智驾 AI 还需要重复、大量训练才能有所成长的当下,擅长理解物理世界的物理规律、预测生成所有潜在情况的世界模型,其在智驾 AI 训练领域的应用,能够有效地解决这一问题。
何况年初的 DeepSeek 已经证明通过大量的合成数据训练出的 AI,其能力甚至比通过真实数据训练出的 AI 更强,通过合成数据训练 AI 已经成为了所有 AI 大模型训练领域的新范式。
说到这里,老狐相信很多狐友会有一个疑问:既然世界模型这么强大,为什么一直以来智驾 AI 训练领域没有大量采用世界模型生成的数据呢?
这一问题其实不仅仅困扰着狐友,也是很多智驾专家想做但又做不到的事情。
原因很简单,相比 DeepSeek 等文字生成模型,智驾 AI 对安全性的要求显然高出了几个量级,假如 DeepSeek 使用低质量的训练集,导致生成了错误的文字,顶多就是用户按「重试」即可,而智驾 AI 一旦发生了相同的事情,那后果不堪设想。
多年以来,智驾 AI 训练领域的专家们并不是没有尝试过生成模拟的合成数据,但是以往的合成数据存在各种各样的问题。

AI 配图
比如合成的视频时长特别短、清晰度特别差,生成的视频看起来像是十多年前用 1M 存储的功能机拍摄的;视角完全固定,只能生成车的正前方画面,车两侧的画面完全缺失,根本起不到让 AI 能够学习到现实驾车情况的作用;生成场景的内容完全不可控,凡是环境一经生成,就彻底无法变动,训练只能「一条道走到黑」,没法一次性充分训练所有的场景。
然而绝影开悟世界模型能够全面、彻底地解决智驾 AI 训练领域中的这些疑难杂症。
首先,绝影开悟最强大也是最重要的能力就是能够实现多样化驾驶场景的可控生成,用户不仅可以生成任意的驾驶场景,还能够在生成之后,在这个虚拟的场景中驾驶,随意刹车、加速和转向,就像是真的在开车一样。

同时,用户还可以对场景中的一切元素进行精细化的调整,比如路面情况、光照、天气和场景中其他车辆的车速、类型,都能够完全按照用户需要的方式进行调整。
并且如果发现智驾 AI 在应对某个特殊场景时存在问题,还能够使用绝影开悟模型直接生成成百上千个类类似场景,彻底让智驾 AI 搞清楚怎么解决问题。
这两项能力结合世界模型本身的预测模拟能力,能够显著地提升智驾 AI 强化学习的效率,也能够更轻松地检查智驾 AI 在应对不同情况时的水平如何。
打个比方,这就像是 AI 生成视频后,如果我们想要修改每一个角色佩戴的帽子的形状,我们只需要让 AI 单独调整帽子形状即可,不用在电脑前一直等着 AI 把整个视频重新生成一遍,更灵活、更高效,有效降低了「返工」的概率。

其次,绝影开悟还支持生成最多 11 个视角的视频,并且这些视频中的内容都做到了时间、空间的双对齐,无论从哪一个角度观察合成的物理环境,得到的结果都是一致的,实现了完美的时空一致性,同时绝影开悟还克服了真实摄像头存在的鱼眼视角畸变问题,让智驾 AI 更容易看懂训练数据,学得更快。
此外,在分辨率和时长方面,绝影开悟也有突破性的表现。
相比其他世界模型生成的堪称老年机画质的短短几秒的训练视频,绝影开悟已经能穷举各种驾驶行为,自动生成多样化、高风险和长尾场景的合成数据,时长可达分钟级、分辨率可达 1080p 画质的高清视频,真正实现满足智驾 AI 的训练需求,实现了合成数和真实数据一样有效,
能够结合虚实数据进行 1:1 训练,让智驾 AI 从模拟到实战都能有一致的驾驶表现。

AI 配图
反观人类司机由于永远无法清晰地记住所有的危险情况的处理方法,所以通过全面的合成数据训练出的智驾 AI,不但能够像人类司机一样驾驶,还能超越人类司机的极限驾驶水平,在所有的环境都做到最优的驾驶表现。
这里可能又会有狐友提问:尽管绝影开悟世界模型真的很强,但是它对降低智驾 AI 训练成本会有帮助吗?
有的,兄弟,这个有的!
如开头所说,目前智驾 AI 训练的确存在消耗成本巨大的问题,而且高度可用的训练资料价格也非常高,这确实是阻碍智驾 AI 发展的一大核心原因。
比如智驾行业就普遍认为,只有 1000 万以上的 Clips 才有机会训练出一个好用的端到端智驾模型,特斯拉之所以能够在智驾市场始终处于第一梯队,就与他们目前已经量产交付的 700 多万辆能够回传数据的车有密切的关系。

所以说起缺乏像特斯拉这样庞大的智驾车队的车企时,从业者基本不会看好它的智驾水平,训练数据瓶颈就是阻碍这些车企向上发展的天花板。
而绝影开悟之所以强大就在于它不仅生成的合成数据极其出色,做到了能够替代真实数据训练智驾 AI 的水平,它的数据生成成本也非常的低廉。
仅仅使用一张 312 TFLOPS(FP16)算力的 A100,绝影开悟每天生成的高质量数据,就相当于 500 辆量产车采集的数据量,让智驾企业能够在缺乏量产车部署量的情况下,一样可以实现数据采集量的大幅提升,大幅降低购买真实数据的费用开支,有效降低了训练智驾 AI 的成本,进而能够把安全、出色的智驾 AI 的价格打下来,让人人都能享受到顶尖的智驾 AI。
绝影开悟的应用也不仅仅限于智驾 AI 训练领域,模型生成的数据训练集具备非常出色的泛化性,对于时下热门的具身智能领域,也就是智能机器人领域同样也有非常大的作用。

狐友们想必都还记得去年春晚时登台演出的宇树机器人,诚然,从机器人工程学的角度来说,宇树科技的机器人在关节灵活性、成本等方面都做到了世界一流的水平,让机器人的价格从六位数、五位数一下子打到了四位数。
但是购买了宇树机器人的用户在使用中,却会发现宇树机器人并不能真正理解物理世界的物理常识、预测物理动作的相互关系,这导致宇树机器人在没有训练过、学习过的场景中,经常容易「翻车」,难以准确完成用户的每一个指令。

AI 优化图片
这其中的原因就在于宇树机器人等具身智能,脑中并不具备预测、演算物理世界的能力,因此想要真正实现 AGI,让机器人能够成为人类可靠的帮手,就需要为具身智能补上「世界模型」这一课。
商汤绝影世界模型的能力便是最适合教授此课的「老师」,其依托于多传感器融合和实时处理能力实现的多模态时空对齐能力,结合行业领先的物理世界建模和预测能力,能够生成具身智能机器人在训练中完全可以直接使用的海量训练集。
从而极快地提升具身智能机器人的智能程度,不再仅仅是通过预设编程控制的大号玩具,迅速推动具身智能行业的发展,让我们普通消费者早日用上能够帮我们看孩子、做家务的保姆机器人。
绝影开悟现已应用到智驾 AI 训练领域
在老狐看来,绝影开悟除了自身的模型性能、使用成本和泛化性三方面极其出色,其最珍贵的是它实际应用到了智驾 AI 的训练领域。

此前,商汤绝影已经发布了完全由绝影开悟生成的高达 100万 Clips 的 WorldSim-Drive 智驾 AI 数据集,它不仅是业内迄今为止数量最大的生成式数据集,还凭借绝影开悟自身的能力,做到了高分辨率、分钟级时长和多摄像头视角的时空一致,还实现了 50 多类不同的光照条件、200 多类交通标志的全覆盖!

毫不夸张地说,这一数据集的内容量甚至已经超越了许多人一生的驾驶中所能遇到的全部场景。
正因如此,绝影开悟在智驾 AI 训练领域深受国内顶尖智驾公司、车企的信赖,得到了一致好评,商业化成果可谓遍地开花。

在由智能汽车创新发展平台牵头、一众科技、车企巨头参与的上海智驾实训场中,商汤绝影与上海仪电、库帕思等企业一起合作,基于绝影开悟世界模型的数据生成、仿真测试等能力,携手为上汽集团的智己汽车提供全面的端到端辅助驾驶开发支持,有效加快了智己汽车的智驾训练迭代速度和量产落地效率。
绝影开悟算是最强的世界模型吗?
在全面了解了绝影开悟之后,老狐猜大家可能和自己都有一个一样的疑问:绝影开悟算是最强的世界模型吗?
相信认真看完了前文的狐友们,在心里都会有一个明确的判断,商汤绝影世界模型的产品技术、应用能力和生态建设,无论是在第三方智驾供应商中,还是在主机厂中的排名均位列第一,结合前文来看,商汤绝影世界模型的整体优势非常明显,属于既稳还强的行业优等生。
当然,肯定也会有狐友好奇与国外的世界模型相比,商汤绝影的表现又如何呢?
我们就再用专业研究机构发布的评测数据来回答这个问题,这次的数据采用了更为硬核的比较标准,直接用世界模型的 5 个关键技术指标进行对比,含金量更高:FID(衡量模型生成图片与真实图片之间的相似度)、FVD(衡量模型生成视频与真实视频之间的相似度)、帧率、时长和一致性。

只看数据的话,尽管商汤绝影在一些部分略有落后于谷歌的 Genie3,但是整体来看,仍然处于第二名的水平,如果我们结合商汤绝影开悟已经全面地在智驾 AI 训练领域中落地的背景,那么商汤绝影的综合成绩绝对算是第一名的水平。
所以老狐在此敢大胆下判断,商汤的绝影开悟世界模型不仅是中国第一,就算放在全球范围内,其综合表现也完完全全算得上是行业领先的水平,这一结论并不算夸张。
从豪华专属到科技普惠
绝影开悟让智驾模型训练来到了新的拐点,从此智驾模型的训练有了新范式,出色的生成能力、超低的成本让实现超越人类司机驾驶水平的 AI 有了可能,从此安全不再仅仅豪华智能汽车的专属,而是成为了人人能够享受的科技普惠。
从限定规则的智驾,到模仿人类的端到端智驾,智驾 AI 始终难以突破人类司机的上限,但是绝影开悟出色的数据生成能力和超低的生成成本,让智驾 AI 高效率、低成本地进化到超越人类顶尖司机驾驶水平不再只是停留在 PPT 上的想象。

AI 配图
毫无疑问,在智驾 AI 训练领域的真实训练数据逼近枯竭、获取成本越来越高的背景下,商汤绝影的绝影开悟世界模型的生成式数据路线将会是智驾 AI 训练领域的新拐点。
老狐再次大胆预测,未来随着绝影开悟世界模型的进一步发展,极致的安全智驾不再仅仅是豪华智能汽车的专属,而是将会成为人人能够享受的科技普惠。