

AI Coding不再是美国人的天下。

今天一大早,智谱突然宣布自家的GLM-5.2模型上线并开源。
随后不久,整个AI圈都在传同一张榜单图片。

图源:智谱
在大模型盲测平台竞技场的Code Arena上,GLM-5.2拿下了1595分的高分,排名总榜第二,仅次于Anthropic的Claude Fable 5,在全球可用模型中排名第一。那个排第一的模型因为出口管制,普通开发者已经用不了了。而能用的模型里,GLM-5.2是全世界最强的。
不只是编程。在专门评测模型审美品味的Design Arena上,GLM-5.2更是直接拿下了全球第一。
这是中国AI公司第一次在Coding这个最硬核的赛道上,跟Claude和OpenAI平起平坐。

GLM-5.2最让峰哥感到惊喜的地方,是真正可用的1M无损上下文。
1M上下文是什么概念?100万个Token,大约相当于可以一口气读完数百万字的长篇巨著、数百页的复杂PDF,或者一个中大型软件项目的完整代码库。
并且不一样的是,很多模型宣称支持长上下文,可一旦文本长度超过几十万Token,模型就开始遗忘前面的内容,读到后面忘了前面,理解能力断崖式下跌。
而自2025年初起,智谱便集中力量攻关代码基座,相继推出GLM-4.5与GLM-4.7。到了GLM-5.2,通过扩展Coding Agent的训练环境,有效解决了长文本劣化问题。以至于达到“无损”,即模型可稳定、无损地处理100万Token长度的文本。

图源:智谱
据了解,智谱技术团队花了几个月时间扩展1M Coding Agent的训练环境,覆盖自动化研究、性能优化等多个领域,使得GLM-5.2在1M上下文的solid表现有时甚至超过Claude Opus。
官方透露,在FrontierSWE(测试AI是否能够像软件工程师在数小时尺度上完成复杂技术项目的测试集)中,GLM-5.2 仅比 Opus 4.8 落后 1%,比 GPT-5.5 和 Opus 4.7 分别高出 1% 和 11%。

图源:智谱
而在实际测试中,GLM-5.2更是一次性完成了覆盖Web、移动端与小程序的完整应用开发交付,累计处理88万Token,几乎用满了1M窗口。
为什么要死磕这件事?
过去一年,行业衡量模型智能的标准正在迁移,大家不仅在乎“答得多好”,更在乎模型“能独立工作多久”。AI正在从对话者变成执行者。
一个持续工作数小时的智能体,要经历数千次工具调用、读写数万行代码、积累大量中间状态。上下文窗口不够长,模型就被迫不断压缩、丢弃、再回忆。每一次压缩都是信息损耗,每一次遗忘都可能让任务在第N步偏离第2步定下的约束。
长程任务的失败,很多时候不是模型不够聪明,而是它忘了。GLM-5.2的1M上下文,就是解决这个问题的基础设施。
根据官方描述,GLM-5.2只需用一句话描述需求,它就能自主完成开发、联调、测试到打包上线,几小时内交付一个网页、手机、小程序都能用的完整应用。而这些,过去往往需要一支团队干上数周。时代真的变了。

数据是实打实的
仅从目前已公布的实测数据来看,GLM-5.2性能基本可以对标世界最前沿模型,实打实的国产之光。
除了前面提到的FrontierSWE基准测试,在Terminal-Bench 2.1评测中,GLM-5.2得分81.0,较前代GLM-5.1的63.5分大幅提升了17.5个百分点;在SWE-bench Pro评测中,GLM-5.2得分62.1。

图源:智谱
在Artificial Analysis综合榜单上,GLM-5.2更是取得51分,位列开源模型SOTA(STATE OF THE ART,代表某领域最先进的技术或成果)。
根据该榜单,Anthropic、OpenAI、智谱已经形成了“新御三家”格局。
要知道,此前提到AI界的御三家,大概率指向的是Claude、OpenAI和谷歌。但这次,从实打实的榜单能力来看,谷歌的Gemini实实在在地被GLM超越了。

图源:Artificial Analysis
而在Design Arena上,GLM-5.2以1360的高分位居全球第一。
可以说,在写代码和审美品味这两个截然不同的维度上,GLM-5.2都站上了全球最顶尖的位置。

图源:X
有开发者打趣道:“以后通过中转站用Opus的用户得面对一个新问题:如果Opus是GLM-5.2冒充的,那用户可能真的分辨不出来。”这虽然是玩笑,但也从侧面说明了GLM-5.2在编程能力上已经达到了让开发者难以分辨的水准。
但也有开发者强调,目前从自己跑出来的数据和体感来看,GLM-5.2还远远谈不上世界第一。不少用户反馈存在自主性不强,运行拥堵、额度消耗快等问题。
好在瑕不掩瑜。

图源:X
下一步,智谱将瞄向完全自治的智能体系统(Autonomous Agent System)。让AI能够自主驱动、协同作业,构建7×24小时运转的智能体群体,实现“自动驾驶”级别的数字生产力。
这可不是智谱一家在画饼。今年1月,红杉资本公开喊话,称“长时程Agent实际上是通用人工智能(AGI),2026年将是他们的一年”。LangChain CEO也明确提出2026年是“长时程Agents元年”。
智谱创始人唐杰曾判断,这一能力将推动行业从“一人公司”快速演进至“无员工公司”,自主智能体系统将成为下一个技术前沿。从完成长周期任务到实现完全自主运行,每一个行业都将被重塑,不管是安全、金融、法律还是电商。
同样的,智谱团队还很清醒,他们明确意识到,在这个过程中,还需攻克Memory(记忆机制)、持续学习(Continual Learning)、自我评判(Self-Judge)等核心技术。

MIT协议开源,国产算力Day 0适配,时机踩得刚刚好
当然,技术强是一回事,让多少人能用是另一回事。GLM-5.2在这件事上做得比大多数对手都彻底。
模型权重以最宽松的MIT协议开源,已上线Hugging Face与ModelScope,支持自由下载、部署与商用。
MIT协议意味着什么?没有地域限制,没有使用限制,没有任何附加条件。企业可以拿去做商业产品,开发者可以自由微调,不用向任何人报备。
更关键的是算力基础设施。GLM-5.2在Day 0完成了与华为昇腾、平头哥、摩尔线程、寒武纪、昆仑芯、沐曦、海光、壁仞等国产算力平台的推理适配。
这意味着,中国企业可以在完全国产的算力集群上部署和运行GLM-5.2,不依赖任何海外GPU。
据透露,下半年昇腾950超节点上市后,也将成为GLM-5.2强劲的算力底座。
而且智谱还在同步强化Infra优化,在1M上下文长度下,将单位Token的FLOPs降低至2.9倍。
更重要的是,GLM-5.2发布的时机,让人很难不怀疑是不是特意计算过的。
要知道就在前几天,美国AI公司Anthropic受紧急出口管制指令影响,暂停了Claude Fable 5、Mythos 5两款最新模型向全世界的开放。
而这边,智谱却又立刻宣布GLM-5.2全量开放。官方声明里写了一句话:“前沿智能不应只属于少数人,也不应被少数规则随时收回。它应该开放、可用、可构建,并服务于每一位开发者。”
当闭源海外大模型的服务可得性与合规性遭到冲击时,智谱释出了一个供给可控、可本地化部署且能力相当的选项。这个时间差,让GLM-5.2在发布之前就已经积累了极高的关注度。
在闭源巨头垄断编程模型话语权,并且随时可能收回访问权限的当下,GLM-5.2用开源将选择权交还给了广大开发者。
从智能助手走向数字员工,从一人公司走向无人公司,GLM-5.2只是这条路上的一个站点,但它的意义在于让中国AI第一次站到了通往这个终局的最前排。
最后,如果你想体验这款模型,可以关注下智谱官方的GLM Coding Plan以及官方API平台。当然,网页端的GLM-5.2目前也已上线。
评论区置顶还会放上GLM-5.2模型在GitHub等网站上的开源地址,欢迎移步评论区进一步交流。
铁粉推荐