【AI】「世界模型」也被泼冷水了?邢波等人揭开五大「硬伤」,提出新范式

人工智能产业链union 2025-07-15 14:55

现在的世界模型,值得批判。


我们知道,大语言模型(LLM)是通过预测对话的下一个单词的形式产生输出的。由此产生的对话、推理甚至创作能力已经接近人类智力水平。


但目前看起来,ChatGPT 等大模型与真正的 AGI 还有肉眼可见的差距。如果我们能够完美地模拟环境中每一个可能的未来,是否就可以创造出强大的 AI 了?回想一下人类:与 ChatGPT 不同,人类的能力组成有具体技能、深度复杂能力的区分。


图片

模拟推理的案例:一个人(可能是自私的)通过心理模拟多个可能结果来帮助一个哭泣的人。


人类可以执行广泛的复杂任务,所有这些任务都基于相同的人类大脑认知架构。是否存在一个人工智能系统也能完成所有这些任务呢?


近日,来自卡耐基梅隆大学(CMU)、阿联酋穆罕默德・本・扎耶德人工智能大学(MBZUAI)、加州大学圣迭戈分校(UCSD)的研究者们探讨了当前 AI 领域最前沿方向 —— 世界模型(World Models)的局限性。


图片



研究人员指出了构建、训练世界模型的五个重点方面:1)识别并准备包含目标世界信息的训练数据;2)采用一种通用表征空间来表示潜在世界状态,其含义可能比直接观察到的数据更为丰富;3)设计能够有效对表征进行推理的架构;4)选择能正确指导模型训练的目标函数;5)确定如何在决策系统中运用世界模型。


基于此,作者提出了一种全新的世界模型架构 PAN(Physical, Agentic, and Nested AGI System),基于分层、多级和混合连续 / 离散表示,并采用了生成式和自监督学习框架。


研究者表示,PAN 世界模型的详细信息及结果会很快在另一篇论文中展示。MBZUAI 校长、CMU 教授邢波在论文提交后转推了这篇论文,并表示 PAN 模型即将发布 27B 的第一版,这将是第一个可运行的通用世界模器。


图片


对世界模型的批判


一个以 Yann LeCun 为代表的学派在构建世界模型的五个维度 —— 数据、表征、架构、目标和用途


该学派还为世界模型提出了如图 4 所示的替代框架,其核心思想可以概括为「预测下一个表征」,而非「预测下一个数据」:


图片


无文本预训练:该框架完全摒弃了文本数据,转而采用如视频、音频、嗅觉等连续的感官数据。


固定维度的连续状态嵌入:给定感官输入 o,一个编码器 h 将世界状态估计为一个具有固定维度的抽象连续嵌入图片 (例如,图片)。


编码器 - 编码器架构:世界模型 f 基于动作输入 a,以一种确定性的方式预测下一个状态嵌入 图片。值得注意的是,该架构不使用解码器 g 来重构下一个观测 图片,而是再次应用编码器 h 处理真实的下一观测 图片,从而生成 图片 作为监督学习的真实目标。


潜在空间中的重构损失:该框架并非通过比较重构的下一感官输入 图片 与真实数据 图片 来进行监督,而是将学习建立在预测的下一状态 图片 与自举生成的真实目标 图片 之间的偏差之上(例如,使用 L2 损失 图片)。


通过模型预测控制(MPC)选择动作:给定当前观测 图片,该框架倾向于先提出一个初始的动作序列 图片,然后使用世界模型 f 模拟未来的状态 图片,并最终基于目标进展 图片 来优化这一动作序列。


尽管这些思路确实对当前世界模型的一些实践提出了合理的问题,并描绘了吸引人的解决方案,但作者认为,当以实现智能体推理和决策为目的,去构建通用、可扩展且鲁棒的世界模型时,其每一项基本假设都会引入严重的局限性


作者沿着他们构建世界模型的五个维度,对他们提出的主张和建议逐一进行分析性批判。下面对每个观点进行了概述,感兴趣的读者可以阅读原文。


数据:关键在于信息密度,而非数据量


待批判的主张:感官输入优于文本输入,因为来自物理世界的数据量远超文本(例如,一个四岁的孩子就已经处理了 1.1×10¹ 字节的视觉数据,而用于训练现代大语言模型的所有文本数据加起来也仅仅约 0.9×10¹ 字节)。


作者的观点:


尽管视频等感官数据量大,但其信息冗余度高、语义含量低。相比之下,自然语言是人类经验的高度压缩和抽象形式,它不仅能描述物理现实,还能编码如「正义」、「动机」等无法直接观察的抽象概念,并承载了人类的集体知识。


因此,通往通用人工智能的道路不能偏重于任何单一模态。视频、文本、音频等不同模态反映了经验的不同层面:视频捕捉物理动态,而文本编码抽象概念。一个成功的世界模型必须融合所有这些分层的数据,才能全面理解世界并处理多样化的任务,忽略任何一个层面都会导致关键信息的缺失。


表示:连续?离散?还是两者兼有? 


待批判的主张:世界状态应由连续嵌入来表征,而非离散的词元,以便于进行基于梯度的优化。


作者的观点:


仅用连续嵌入来表示世界状态是脆弱的,因为它难以应对感官数据中固有的噪声和高变异性 。人类认知通过将原始感知归类为离散概念来解决此问题,而语言就是这些离散概念的载体,为抽象和推理提供了稳定、可组合的基础 。


理论上,离散符号序列(即「语言」)足以表达连续数据中任意精度的信息,并且如图 5 所示,通过增加序列长度来扩展其表达能力,远比扩大词汇表更高效 。


图片


因此,最佳路径是采用混合表示 。这种方法结合了离散符号的稳健性、可解释性和结构化推理能力,同时利用连续嵌入来捕捉细微的感官细节,从而实现优势互补 。


架构:自回归生成并非敌人 


待批判的主张:自回归生成模型(例如 LLM)注定会失败,因为它们最终必然会犯错,并且无法对结果的不确定性进行建模。


作者的观点:


如论文图 6(左半部分)所示,这种被批判的「编码器 - 编码器架构」在潜在空间中进行「确定性的下一嵌入预测」 ,但它在功能上仍是自回归的,需要递归地预测未来状态,因此并未真正避免其声称要解决的误差累积问题 。更关键的是,通过移除解码器来避免重构观察数据,会导致模型学习到的潜在表示与真实世界脱节,难以诊断,甚至可能崩溃到无意义的解 。


图片


更好的方案不是抛弃生成模型,而是采用分层的生成式潜在预测(GLP)架构,这在图 6(右半部分)中得到了展示  。该架构包含一个解码器用于「生成式重构」 ,其核心是一个由「增强的 LLM + 扩散模型」构成的分层世界模型 。这种设计既能通过生成式解码器确保模型与真实数据挂钩,又能通过分层抽象来隔离底层噪声,实现更鲁棒、更强大的推理 。


目标:在数据空间还是潜在空间中学习? 


待批判的主张:概率性的数据重构目标(例如编码器 - 解码器方案)是行不通的,因为这类目标难以处理,并且会迫使模型去预测不相关的细节。


作者的观点:


如图 7(左半部分)所示,在潜在空间计算重构损失的方法,理论上存在「平凡解崩溃」的风险 ,即模型可以轻易将所有输入映射为常数来使损失为零,从而什么也学不到 。为了防止崩溃,这类模型不得不依赖复杂且难以调试的正则化项。


图片


相比之下,基于数据空间的生成式重构目标函数,如图 7(右半部分)所示,要求模型预测并重构出真实的下一刻观察数据,并通过「生成式损失」进行监督 。这从根本上避免了崩溃问题 ,为模型提供了稳定、可靠且有意义的监督信号 。


图片


图 8 进一步从理论上解释了,潜在空间损失只是生成式损失的一个宽松的「上界代理」 。这意味着,即使一个模型的潜在损失很低,也不能保证它在真实世界中的预测是准确的,因为它可能遗漏了对任务至关重要的信息 。


用途:模型预测控制(MPC)还是强化学习(RL)? 


待批判的主张:世界模型应该用于模型预测控制(MPC),而不是强化学习(RL)框架,因为后者需要过多的试验次数。


作者的观点:


如论文图 9(左半部分)所示,MPC 在决策时需要反复进行「模拟下一个潜在状态」和「基于目标优化动作」的循环 ,这导致其计算开销巨大,难以应对快速变化的环境,并且通常视野有限,难以进行长时程战略规划 。


图片


强化学习(RL)提供了一个更通用、灵活且可扩展的范式,如图 9(右半部分)所示 。它将世界模型作为一个「模拟器」,让一个独立的智能体模型在其中探索并学习 。这个过程是用于「基于目标用 RL 优化智能体模型」 ,将巨大的计算成本从「决策时」转移到了「训练时」 。这使智能体不仅能快速行动,还能通过学习积累长期回报,进行更具战略性的长远规划 。


PAN 世界模型


基于对现有世界模型框架的批评,作者得出了关于通用世界模型设计原则。PAN 架构基于以下设计原则:1)涵盖所有体验模式的数据;2)结合连续与离散表示;3)基于增强的大语言模型(LLM)主干的分层生成建模,以及生成式潜在预测架构;4)以观察数据为基础的生成损失;5)利用世界模型通过强化学习(RL)来模拟体验,以训练智能体。


一个真正多功能且通用的世界模型必须基于能够反映现实世界推理需求全部复杂性的任务。总体而言,PAN 通过其分层、多级和混合表示架构,以及编码器 - 解码器管道,将感知、行动、信念、模拟信念和模拟世界等要素串联起来。作为通用生成模型,PAN 能够模拟现实世界中可操作的可能性,使智能体能够进行有目的的推理。PAN 并不回避原始感知输入的多样性,而是将其模块化和组织化,从而实现对每一层体验的更丰富内部模拟,增强智能体的推理和规划能力。


在训练时,PAN 需要首先通过自我监督(例如使用大语言模型处理文本数据,使用扩散模型处理视频数据)独立预训练每个模块。这些特定于模态和级别的模块在后训练阶段通过多模态数据、级联嵌入和梯度传播进行对齐或整合。


PAN 架构的一大优势在于其数据处理效率,这得益于其采用的多尺度和分层的世界观。事实上,PAN 的预训练 - 对齐 / 集成策略能够充分利用感觉信息简历知识基础,利用 LLM 促进跨模态的泛化能力。


作者概述了一种利用世界模型进行模拟推理的智能体架构。PAN 自然地融入这一范式,不仅作为视频生成器,更作为一个丰富的内部沙盒,用于模拟、实验和预见未来。


最后,作者认为,世界模型不是关于视频或虚拟现实的生成,而是关于模拟现实世界中所有可能性,因此,目前的范式和努力仍然是原始的。作者希望,通过批判性、分析性和建设性的剖析一些关于如何构建世界模型的流行思想,以及 PAN 架构,能够激发理论和实施更强大世界模型的进一步发展。


图片

由 PAN 世界模型驱动的模拟推理智能体。与依赖反应策略的传统强化学习智能体,或在决策时刻昂贵地模拟未来的模型预测控制(MPC)智能体不同,其利用了 PAN 生成的预计算模拟缓存。在决策过程中,智能体根据当前的信念和预期结果选择行动,从而实现更高效、灵活和有目的的规划方式。这种方式更接近人类推理的灵活性。

☟☟☟

☞人工智能产业链联盟筹备组征集公告☜


精选报告推荐:

11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:


【清华第一版】DeepSeek从入门到精通

【清华第二版】DeepSeek如何赋能职场应用?


【清华第三版】普通人如何抓住DeepSeek红利?

【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?

【清华第五版】DeepSeek与AI幻觉

【清华第六版】DeepSeek赋能家庭教育

【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力

【清华第八版】DeepSeek政务场景应用与解决方案

【清华第九版】迈向未来的AI教学实验

【清华第十版】DeepSeek赋能品牌传播与营销

【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南

 10份北京大学的DeepSeek教程

【北京大学第一版】DeepSeek与AIGC应用

【北京大学第二版】DeepSeek提示词工程和落地场景

【北京大学第三版】Deepseek 私有化部署和一体机

【北京大学第四版】DeepSeek原理与落地应用

【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施

【北京大学第六版】DeepSeek与新媒体运营

【北京大学第七版】DeepSeek原理与教育场景应用报告

【北京大学第八版】AI工具深度测评与选型指南

【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望

【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)

8份浙江大学的DeepSeek专题系列教程

浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育

浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景

浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态

浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读

浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅

浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧

浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原

浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来

4份51CTO的《DeepSeek入门宝典》

51CTO:《DeepSeek入门宝典》:第1册-技术解析篇

51CTO:《DeepSeek入门宝典》:第2册-开发实战篇

51CTO:《DeepSeek入门宝典》:第3册-行业应用篇

51CTO:《DeepSeek入门宝典》:第4册-个人使用篇

5份厦门大学的DeepSeek教程

【厦门大学第一版】DeepSeek大模型概念、技术与应用实践

【厦门大学第二版】DeepSeek大模型赋能高校教学和科研

【厦门大学第三版】DeepSeek大模型及其企业应用实践

【厦门大学第四版】DeepSeek大模型赋能政府数字化转型

【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇

10份浙江大学的DeepSeek公开课第二季专题系列教程

【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)

【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)

【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)

【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)

【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)

【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)

【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)

【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)

【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)

【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)

6份浙江大学的DeepSeek公开课第三季专题系列教程

【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)

【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)

【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)

【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能赋能交通运输系统——关键技术与应用(附PDF下载)

【精选报告】浙江大学公开课第三季:人工智能与道德进步(附PDF下载)


相关阅读

干货推荐:
AI加油站】第一部:《大型语言模型应用检索增强生成:改变搜索、推荐和 AI 助手》附下载
【AI加油站】第二部:《程序员的自我修炼手册》(附下载)
【AI加油站】第三部:《大规模语言模型:从理论到实践》(附下载)
【AI加油站】第四部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第五部:《使用生成式人工智能和Python开始数据分析》(附下载)
【AI加油站】第六部:《时间序列:建模、计算与推断》(附下载)
【AI加油站】第七部:《因果关系的逻辑理论的好书-A Logical Theory of Causality》(附下载)

【AI加油站】第八部:《模式识别(第四版)-模式识别与机器学习》(附下载)

【AI加油站】第九部:《Python深度学习(中文版)》(附下载)
【AI加油站】第十部:《机器学习方法》(附下载)
【AI加油站】第十一部:《深度学习》(附下载)
【AI加油站】第十二部:《从零开始的机器学习》(附下载)
【AI加油站】第十三部:《Transformer入门到精通》(附下载)
【AI加油站】第十四部:《LLM 应用开发实践笔记》(附下载)
【AI加油站】第十五部:《大模型基础 完整版》(附下载)
【AI加油站】第十六部:《从头训练大模型最佳实践》(附下载)
【AI加油站】第十七部:《大语言模型》(附下载)
【AI加油站】第十八部:《深度强化学习》(附下载)
【AI加油站】第十九部:清华大学《大模型技术》(附下载)
【AI加油站】第二十部:Prompt入门神书-《Prompt 学习指南》(附下载)
【AI加油站】第二十一部:吴恩达&open AI联合推出《大模型通关指南》(附下载)
【AI加油站】第二十二部:《李宏毅深度学习教程》值得反复阅读的神书!(附下载)
【AI加油站】第二十三部:Prompt经典中文教程-《提示工程指南》(附下载)
【AI加油站】第二十四部:爆火下载28万次!MIT最新神书《理解深度学习》(附下载)
【AI加油站】第二十五部:LLM4大名著,OpenAI专家强推《深度解析:大语言模型理论与实践》(附下载)
【AI加油站】第二十六部:NLP大牛Thomas Wolf等新书《Transformer自然语言处理》(附下载)
【AI加油站】第二十七部:哈工大博士耗时一年整理《PyTorch常用函数手册》,轻松掌握PyTorch的各种操作(附PDF下载)
面试推荐:
【AI加油站】AI面试专题一:BIO,NIO,AIO,Netty面试题(附下载)
【AI加油站】AI面试专题二:Git常用命令面试题(附下载)
【AI加油站】AI面试专题三:Java常用面试题(附下载)
【AI加油站】AI面试专题四:Linux系统的面试题集(附下载)
【AI加油站】AI面试专题五:Memcached 面试题集(附下载)
【AI加油站】AI面试专题六:MyBatis框架的面试题(附下载)
【AI加油站】AI面试专题七:MySQL相关的面试题资料(附下载)
【AI加油站】AI面试专题八:Netty面试题资料(附下载)
【AI加油站】AI面试专题九:Nginx的面试题资料(附下载)
【AI加油站】AI面试专题十:RabbitMQ的面试题资料(附下载)
【AI加油站】AI面试专题十一:Redis的面试题资料(附PDF下载)
【AI加油站】AI面试专题十二:Spring的面试题资料(附PDF下载)
【AI加油站】AI面试专题十三:Apache Tomcat的面试题资料(附PDF下载)
【AI加油站】AI面试专题十四:Zookeeper的面试题资料(附PDF下载)
【AI加油站】AI面试专题十五:《阿里巴巴Java开发手册》终极版的面试题资料(附PDF下载)
【AI加油站】AI面试专题十六:大数据技术面试题资料(附PDF下载)

人工智能产业链联盟高端社区




图片
精选主题推荐:
Manus学习手册
从零开始了解Manus

DeepSeek 高级使用指南,建议收藏

一次性说清楚DeepSeek,史上最全(建议收藏)

DeepSeek一分钟做一份PPT

用DeepSeek写爆款文章?自媒体人必看指南

【5分钟解锁DeepSeek王炸攻略】顶级AI玩法,解锁办公+创作新境界!

DeepSeek接入个人微信!24小时智能助理,随时召唤!
PS×Deepseek:一句话编写PS脚本,搞定PS批量导出图层
如何让AI给自己打工,10分钟创作一条爆款视频?
荐:
【中国风动漫】《姜子牙》刷屏背后,藏着中国动画100年内幕!
【中国风动漫】除了《哪吒》,这些良心国产动画也应该被更多人知道!

【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

图片
声明

免责声明:部分文章和信息来源于互联网,不代表本订阅号赞同其观点和对其真实性负责。如转载内容涉及版权等问题,请立即与小编联系(微信号:913572853),我们将迅速采取适当的措施。本订阅号原创内容,转载需授权,并注明作者和出处。如需投稿请与小助理联系(微信号:AI480908961)

编辑:Zero

图片


图片
图片

图片

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号