刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了

新智元 2025-09-25 13:15

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图1



  新智元报道  

编辑:艾伦
【新智元导读】疯狂挖人的Meta,终于在今天发布了最新AI研发成果!代码世界模型CWM是本次发布的模型,创新性地将世界模型引入了代码生成任务中。这是否会成为编程模型新范式?

,终于把他们的AI研发新成果端上来了!

就在今天,Meta官宣发布了一款名为代码世界模型(Code World Model, CWM)的LLM,探索如何使用世界模型改进AI代码生成性能。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图2

Yann LeCun也亲自下场转发撑场子了。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图3

CWM究竟有哪些创新点?这个32B的参数相对较小的大模型,究竟有多强?

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图4
CWM创新点

本次发布的CWM,最大的创新点是,将世界模型引入了代码生成任务中。

简言之,该模型的核心正如Yann LeCun所言:生成代码时,通过提前预测即将生成的代码指令可能产生的效果,来更好地规划出能够满足人类期望达成的效果的代码,从而改进生成代码的质量。

当人类进行规划时,我们会设想不同行动可能产生的结果。

当人类思考代码时,会在脑海中模拟其部分执行过程。

而目前市面上的主流语言模型,还很难做到这一点。

专门训练一个代码世界模型,补足这一点,生成代码的效果会不会好很多,是Meta要通过本次发布的CWM验证的猜想。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图5

CWM基于大量编程数据,加上专门定制的Python和Bash(Linux和macOS的命令行解释器脚本语言)的世界建模数据,进行该模型的训练。

通过这种训练,CWM能够模拟Python程序在Bash环境中的执行及与Agent之间的交互。

对于「数数strawberry中有多少个r」这个难倒无数大模型的问题,CWM也用类似pdb(Python Debug用的调试器)的形式演示了其工作流程:

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图6
刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图7

CWM直接发布了3个不同的Checkpoint,用于不同目的。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图8
刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图9
刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图10
CWM性能测试

「光说不练假把式」,我们直接看看这个32B的小参数大模型在各类编程基准测试中的表现如何。

SWE-bench Verified是一个真实开源项目修复的最常用的编程评测标准,让模型在真实的大型开源仓库里,根据 GitHub issue+failing tests,定位并修复缺陷,最终以自动化测试是否全部通过来判定是否解决。

在该项测试中,32B小参数的CWM成绩为65.8%,逊于Qwen3-Coder和Kimi-K2-Instruct,与闭源的Gemini-2.5-Thinking接近,属于开源阵营第一梯队了。

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图11

其他测试成绩Alexandr Wang也直接发出来了:

LiveCodeBench:68.6%

Math-500:96.6%

AIME 2024:76.0%

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图12

CWM模型算是Meta的一次概念验证,投入了不算多的算力训练这个小参数大模型,主要是为了检验将世界模型引入代码生成任务是否会显著提高生成代码质量。

换言之,我们今日看到的这个模型只能算Demo。大的还在后面?

参考资料:
https://ai.meta.com/research/publications/cwm-an-open-weights-llm-for-research-on-code-generation-with-world-models/
https://x.com/syhw/status/1970960837721653409
https://x.com/AIatMeta/status/1970963571753222319
https://x.com/ylecun/status/1970967341052854748
https://x.com/alexandr_wang/status/1970973317227225433

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图13

刚刚,LeCun团队开源首款代码世界模型!能像程序员一样思考的LLM来了图14

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
具身智能从此「边听边说」,智源研究院开源原生全双工语音大模型RoboBrain-Audio
阿里新开源提出建设性安全对齐方案,向“让用AI的人安全”新范式跃迁
Qwen开源版Banana来了!原生支持ControlNet
ICCV'25 Highlight 开源 | 即插即用!面向高斯和点云的可泛化显示连续表面重建!
Wan2.2-Animate-14B开源!地表最强开源角色动画模型媲美商用: 表情动作1:1完美复制!
智元机器人GO-1通用具身基座大模型全面开源
智元机器人GO-1通用具身基座大模型开源:向全球免费开放!
效率超FlowGRPO 25倍!清华&英伟达开源DiffusionNFT:实现扩散模型强化学习大一统
刚刚,稚晖君又开源了
聊聊阿里的新深度研究框架:WebWeaver 如何通过双智能体突破传统开源方案“先搜后写”和““静态大纲引导搜索”两种范式
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号