
北京大学: 《生成未必理解:基于扩散模型能否实现视觉世界模型》
(完整版.pdf ) 以下仅展示部分内容 下载方式见文末
《基于扩散模型能否实现视觉世界模型?》
核心内容速览
一、核心问题
扩散模型“生成”了逼真图像/视频,但它真的“理解”视觉世界吗?
→ 生成 ≠ 理解,二者技术路线长期割裂。
二、现状诊断
生成路线
• 模型:Stable Diffusion、Open-Sora、DALL-E 2/3、Sora …
• 技术:Latent Diffusion、DiT、ControlNet、T2I-Adapter
• 典型缺陷
– 物理常识缺失:水先撒后杯子才碎(违反因果)
– 对象一致性差:小狼数量在 3-5 只间跳动理解路线
• 模型:LLaVA、Video-LLaVA、Chat-UniVi …
• 技术:自回归大语言模型 + Vision Encoder
• 特点:可问答、可推理,但不做高保真生成
三、关键差距
复制
结论:两条路线“生成未必理解,理解不能生成”。
四、破局方向——统一的世界模型
目标:同一套骨干网络同时完成“视觉理解 + 视觉生成”。
三条技术路径
① 扩散框架内引入物理/几何先验
– ViewCrafter:相机位姿→4D 场景生成(开源)
– HoloDreamer:全景图→3D 乐高世界
② 自回归框架升级
– VAR:按“分辨率递进”而非“token 递进”生成图像
– VideoPoet:LLM 直接自回归出视频 token
③ 原生统一架构(端到端)
– Janus-Pro:同一 Transformer 解码器,任务路由到不同专家头
– Flow-World:基于流模型的统一多模态框架(研发中)
五、北大团队开源动作
• 11.7k⭐ Open-Sora Plan:
– 支持 10 s 1080 p 任意分辨率/帧率
– 已开放 3D 因果 VAE、稀疏注意力、图生视频、视频续写等模块
– 昇腾 NPU 原生优化,单周访问 14 万+,GitHub Trending 全球第一
• 代码/模型总入口:https://github.com/PKU-YuanGroup
六、技术配套
• 训练框架:PyTorch→TorchNPU 两行代码迁移
• 调优工具:MindStudio Insight / MindSpeed / MSProbe
• 统一注意力:MoE++、MoH(混合专家+混合头)在 DiT/LLM 上同等有效
七、关键结论
扩散尚未收敛,自回归+混合架构同样有机会。
世界模型的未来一定是“理解-生成”统一大模型。
开源社区与国产算力协同,能把 Sora 级能力“白菜化”。





☟☟☟
☞人工智能产业链联盟筹备组征集公告☜
☝
精选报告推荐:
11份清华大学的DeepSeek教程,全都给你打包好了,直接领取:
【清华第四版】DeepSeek+DeepResearch让科研像聊天一样简单?
【清华第七版】文科生零基础AI编程:快速提升想象力和实操能力
【清华第十一版】2025AI赋能教育:高考志愿填报工具使用指南
10份北京大学的DeepSeek教程
【北京大学第五版】Deepseek应用场景中需要关注的十个安全问题和防范措施
【北京大学第九版】AI+Agent与Agentic+AI的原理和应用洞察与未来展望
【北京大学第十版】DeepSeek在教育和学术领域的应用场景与案例(上中下合集)
8份浙江大学的DeepSeek专题系列教程
浙江大学DeepSeek专题系列一--吴飞:DeepSeek-回望AI三大主义与加强通识教育
浙江大学DeepSeek专题系列二--陈文智:Chatting or Acting-DeepSeek的突破边界与浙大先生的未来图景
浙江大学DeepSeek专题系列三--孙凌云:DeepSeek:智能时代的全面到来和人机协作的新常态
浙江大学DeepSeek专题系列四--王则可:DeepSeek模型优势:算力、成本角度解读
浙江大学DeepSeek专题系列五--陈静远:语言解码双生花:人类经验与AI算法的镜像之旅
浙江大学DeepSeek专题系列六--吴超:走向数字社会:从Deepseek到群体智慧
浙江大学DeepSeek专题系列七--朱朝阳:DeepSeek之火,可以燎原
浙江大学DeepSeek专题系列八--陈建海:DeepSeek的本地化部署与AI通识教育之未来
4份51CTO的《DeepSeek入门宝典》
51CTO:《DeepSeek入门宝典》:第1册-技术解析篇
51CTO:《DeepSeek入门宝典》:第2册-开发实战篇
51CTO:《DeepSeek入门宝典》:第3册-行业应用篇
51CTO:《DeepSeek入门宝典》:第4册-个人使用篇
5份厦门大学的DeepSeek教程
【厦门大学第一版】DeepSeek大模型概念、技术与应用实践
【厦门大学第五版】DeepSeek等大模型工具使用手册-实战篇
10份浙江大学的DeepSeek公开课第二季专题系列教程
【精选报告】浙江大学公开课第二季:《DeepSeek技术溯源及前沿探索》(附PDF下载)
【精选报告】浙江大学公开课第二季:2025从大模型、智能体到复杂AI应用系统的构建——以产业大脑为例(附PDF下载)
【精选报告】浙江大学公开课第二季:智能金融——AI驱动的金融变革(附PDF下载)
【精选报告】浙江大学公开课第二季:人工智能重塑科学与工程研究(附PDF下载)
【精选报告】浙江大学公开课第二季:生成式人工智能赋能智慧司法及相关思考(附PDF下载)
【精选报告】浙江大学公开课第二季:AI大模型如何破局传统医疗(附PDF下载)
【精选报告】浙江大学公开课第二季:2025年大模型:从单词接龙到行业落地报告(附PDF下载)
【精选报告】浙江大学公开课第二季:2025大小模型端云协同赋能人机交互报告(附PDF下载)
【精选报告】浙江大学公开课第二季:DeepSeek时代:让AI更懂中国文化的美与善(附PDF下载)
【精选报告】浙江大学公开课第二季:智能音乐生成:理解·反馈·融合(附PDF下载)
6份浙江大学的DeepSeek公开课第三季专题系列教程
【精选报告】浙江大学公开课第三季:走进海洋人工智能的未来(附PDF下载)
【精选报告】浙江大学公开课第三季:当艺术遇见AI:科艺融合的新探索(附PDF下载)
【精选报告】浙江大学公开课第三季:AI+BME,迈向智慧医疗健康——浙大的探索与实践(附PDF下载)
【精选报告】浙江大学公开课第三季:心理学与人工智能(附PDF下载)
资料下载方式
Download method of report materials

【中国风动漫】《雾山五行》大火,却很少人知道它的前身《岁城璃心》一个拿着十米大刀的男主夭折!

如需获取更多报告
报告部分截图

编辑:Zero

文末福利
1.赠送800G人工智能资源。
获取方式:关注本公众号,回复“人工智能”。
2.「超级公开课NVIDIA专场」免费下载
获取方式:关注本公众号,回复“公开课”。
3.免费微信交流群:
人工智能行业研究报告分享群、
人工智能知识分享群、
智能机器人交流论坛、
人工智能厂家交流群、
AI产业链服务交流群、
STEAM创客教育交流群、
人工智能技术论坛、
人工智能未来发展论坛、
AI企业家交流俱乐部
雄安企业家交流俱乐部
细分领域交流群:
【智能家居系统论坛】【智慧城市系统论坛】【智能医疗养老论坛】【自动驾驶产业论坛】【智慧金融交流论坛】【智慧农业交流论坛】【无人飞行器产业论坛】【人工智能大数据论坛】【人工智能※区块链论坛】【人工智能&物联网论坛】【青少年教育机器人论坛】【人工智能智能制造论坛】【AI/AR/VR/MR畅享畅聊】【机械自动化交流论坛】【工业互联网交流论坛】
入群方式:关注本公众号,回复“入群”

