节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世

机器之心 2025-09-30 16:41
机器之心报道

机器之心编辑部


新一代大模型的发布,都赶在了国庆假期前。


昨天,深度求索刚刚开源 DeepSeek-V3.2-Exp。


今天,另一国产大模型之光智谱 AI 也正式发布了旗下新一代旗舰模型 GLM-4.6,刚好撞车 Claude Sonnet 4.5。


但有一点不同,智谱的 GLM-4.6 会继续开源,它即将上线 Hugging Face、ModelScope 等平台,遵循 MIT 协议。


这一「节前惊喜」迅速点燃了技术圈的热情,海外开发者甚至发出了「Do the Chinese guys ever rest???」的感叹 。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图1


但新模型也让大家非常期待,这不刚发出来,就被网友们给盯上了。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图2


性能新高,token 消耗降低

突破开源上限


作为 GLM 系列的最新版本,GLM-4.6 在多个方面实现了全面提升,包括但不限于:



根据智谱报告,GLM-4.6 模型在八大权威基准评测上性能有了全面提升,包括:AIME 25、LCB v6、HLE、SWE-Bench Verified、BrowseComp、Terminal-Bench 和 τ²-Bench。新模型在其中多个基准上胜过了 Claude Sonnet 4/Claude Sonnet 4.5,位居国产模型首位。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图3

接下来是在 Claude Code 环境下进行的 74 个真实场景编程任务测试,GLM-4.6 实测性能超过了 Claude Sonnet 4,以及其他国产模型。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图4


值得关注的是,在平均 token 消耗上,GLM-4.6 比 GLM-4.5 节省了 30% 以上,为同类模型最低。当然,它的 Coding API 价格也只是 Claude 的 1/7,性能更好,速度更快还更便宜。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图5


新模型同时适配了国产 AI 硬件:GLM-4.6 已在寒武纪芯片上实现 FP8+Int4 混合量化部署,这是首次在国产芯片投产的 FP8+Int4 模型芯片一体解决方案。该方案在保持精度不变的前提下,可以大幅降低推理成本,为国产生态下大模型本地化运行开创了可行路径。


另外,基于 vLLM 推理框架部署,摩尔线程新一代 GPU 也可以基于原生 FP8 精度稳定运行 GLM-4.6。


一手实测

GLM-4.6 全方位提质


目前,GLM-4.6 已经上线 z.ai 等平台,用户在模型选择器中选择它即可开始尝试。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图6


在这里可以看到,智谱为该模型设置的简短描述是「最先进的模型,擅长处理全方位任务」,同时也能看到智谱预设的一些工作模式和示例案例,包括 AI PPT、全栈开发、灵感画板、深度研究、写代码等等。我们也是第一时间进行了实测。


首先,我们先让 GLM-4.6 写一个「俄罗斯方块 + 贪吃蛇」游戏,看看其「写代码」的能力。开启「自动思考」,输入以下提示词:


用 Python(使用 pygame)编写一个融合俄罗斯方块和贪吃蛇的小游戏:画面分为上下两部分,上半部分有一条会自动移动的蛇,玩家需控制下落方块左右移动以躲避蛇;当方块进入下半部分后,按照俄罗斯方块规则继续下落,玩家需要把它放入合适位置以消除整行。若方块与蛇相撞则游戏结束;支持方向键移动、空格键加速下落;蛇可随机改变方向。程序需包含初始化、事件处理、逻辑更新和渲染绘制等模块,并写清注释。


可以看到,GLM-4.6 在详细分析了我们的需求之后便开始了码代码工作,并且完成之后还给出了非常详细的游戏说明,包括游戏特色、操作方式、游戏规则和程序结构。尤其值得一提的是其工作速度:完成该任务的时间仅 1 分钟左右!


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图7
上下滑动查看


复制出来运行一下看看效果,可以看到,除了 VS Code 默认字体设置问题之外,这个 GLM-4.6 一次性完成的「俄罗斯方块 + 贪吃蛇」游戏已经完整可玩,游戏逻辑也完全遵照了我们的提示词设定,表现堪称惊艳。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图8


一个简单的游戏或许还不足以探知其代码能力的上限。接下来,我们将难度提升一个量级,要求它处理涉及真实物理数据和 3D 可视化的复杂任务:让 AI 构建一个相比扁平的圆形更接近真实的太阳系的演示模型:


请使用 Python 创建一个太阳系动态可视化演示,大体基于真实天文数据,但太阳大小可适当缩小以方便查看:包含太阳和八大行星(水星至海王星),采用 JPL 提供的轨道六根数初始化各行星轨道;以太阳系质心为参考点,利用牛顿万有引力定律构建运动微分方程,并通过数值积分模拟行星在三维空间中的轨迹;使用 matplotlib 的 3D 绘图功能实时动画展示行星绕日运动,正确体现轨道倾角、椭圆偏心率及相对公转周期;坐标轴单位为天文单位(AU),时间步长可调,并在图中标识各行星名称;代码需结构清晰、注释完整,并说明所作简化(如忽略行星间引力摄动或仅考虑日心引力)。界面使用微软雅黑字体。


这一次,GLM-4.6 同样很快就完成了任务(约 2 分钟)。这个任务的难点不仅在于代码量,更在于对天文学知识、物理公式(牛顿万有引力定律)以及专业数据库(JPL 轨道数据)的理解和应用。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图9
上下滑动查看


将代码复制到运行环境,导入必要的库,运行:


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图10


结果再次令人印象深刻。GLM-4.6 再一次实现了「零修改」一次性运行成功!它不仅相当完美地基于 JPL 轨道数据生成了会随时间演进的 3D 太阳系模型,还贴心地加入了坐标轴设置功能,让我们能从不同视角清晰观察行星轨迹。并且,由于我们在提示词中明确指定了字体,上次实验遇到的显示问题也得到了完美解决。这证明了其代码能力不仅强大,而且对指令的遵循度极高。


当然,我们也可以将 GLM-4.6 接入到强大编程智能体 Claude Code 中。


配置完成后,我们让 GLM-4.6 尝试完成了以下任务:


写一个 Python 程序,使用 asyncio + aiohttp,并发爬取前 20 个知乎热榜问题页面,提取问题标题、回答数量、关注人数,然后将结果存储为一个 MD 文件。



可以看到,接入 Claude Code 的 GLM-4.6 的运行速度同样非常快。同时得益于 Claude Code 强大的框架设计,GLM-4.6 可以针对一个具体项目进行反复优化,比如视频中我们可以看到 GLM-4.6 对目标 Python 程序的反复验证和修改,最终得到了理想的结果。


当然,作为科技媒体小编,保持对新闻的关注自然非常重要,借助 Claude Code + GLM-4.6,这个任务可以变得更加简单。


检索 24 小时内发生的热门 AI 新闻,整理一份报告给我,结果保存为一个 Markdown 文件。



继续对话,我们还能让 GLM-4.6 将其设置成一个每天 8 点定时运行的任务,这样我们一上班就可以看到过去 24 小时最新的 AI 新闻报道了。



可以看到,GLM-4.5 编写并优化了实现该自动化任务的脚本,我们也只需一次运行即可将其变成我们计算机上的一个定时任务。


在连续验证了其强大的「理科」编程能力后,我们来看看这个「擅长处理全方位任务」的  GLM-4.6 模型在深度研究和内容创作上的「文科」表现。 我们打开「联网搜索」,给它布置一个科技媒体工作者日常可能遇到的真实任务:


请撰写一篇深度调查报道,题为 “从 OpenAI 出走的创业者:他们是谁,又在做什么?”。基于公开可靠信息,梳理至少 5 位曾任职 OpenAI 研究或技术岗位、后离职创业的核心人物,包括其姓名、在 OpenAI 的角色、离职时间、所创公司名称、技术方向、融资或产品进展;分析他们离开的可能动因(如理念分歧、自主权或商业化考量);探讨这一人才外流对 AI 行业竞争与创新的影响,以及这些初创公司可能如何塑造未来 AI 发展。报道需专业、客观,兼具叙事性与分析深度。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图11
上下滑动查看


从其思考过程看,GLM-4.6 首先基于任务需求检索了网络,得到了足够的必要信息,然后为「OpenAI 黑手党」构建了一份相当全面的报道,其中不仅列出了大量关键信息和细节,同时还显式地索引了相关来源以供验证。


对于我们媒体工作者而言,这已经不是一个简单的「资料整理工具」,而是一个能够提供洞见、辅助分析的强大研究伙伴。


如果说代码生成和研究报告还是相对独立的任务,那么全栈开发则考验的是模型将前后端逻辑整合、构建一个完整产品的工程能力。这一次,我们采用了一个更有趣的方式,直接让模型自己给自己出题:


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图12


新开一个窗口,选择「全栈开发」模式,将这条由 GLM-4.6 自己生成的提示词再交还给它:



可以看到,GLM-4.6 在分析完任务后,首先构建了一个明确的待办事项,这本质上是它的项目开发路线图:包括设计 Todo 方案、创建前端、实现 RESTful API 路由、增加本地存储以供离线使用、测试功能。这种「先规划、后执行」的工作模式,非常接近人类程序员的思维方式。之后,它便一步步地完成了所有任务。经过实测,生成的应用功能完备,交互流畅。


更锦上添花的是,我们能直接将生成的结果以网页应用形式发布到 space.z.ai。感兴趣的读者可以访问下方链接,亲自试用这个由 GLM-4.6 在几分钟内新鲜出炉的待办事项管理应用:

https://a019u8vgp630-deploy.space.z.ai


除了上述硬核能力,GLM-4.6 也集成了多模态生成等便捷功能。在预设的 AI PPT 和灵感画板模式中,模型可以快速将想法变为现实。比如,我们让它生成了一张介绍「蕾姆」的小红书风格封面图。


执行该任务时,GLM-4.6 首先会联网检索并理解「蕾姆」这一角色,下载相关素材,然后再通过生成 HTML/CSS 代码来设计和构建版式,最终呈现出一张符合要求的图片。这展示了它理解、检索、设计、生成的综合能力。


节前重磅:开源旗舰模型新SOTA,智谱GLM-4.6问世图13


不止于强大,更趋于全能


通过从代码生成、深度研究到全栈开发等一系列的实测,我们可以得出结论:智谱 AI 为 GLM-4.6 设定的「最先进的模型,擅长处理全方位任务」的描述并非虚言。


它的强大之处体现在:



毫无疑问,GLM-4.6 已经展现出了顶级大模型应有的水准,它不仅是一个强大的工具,更是一个能够激发创造力、赋能专业工作的得力助手。


现如今,智谱的 GLM 系列大模型已成为全球开源 AI 领域的一支重要力量。新推出的 GLM-4.6 不论是在技术架构、性能表现,还是在使用成本上都为全球业界树立了新的标杆。我们有理由期待它在未来的应用中带来更多惊喜。


参考链接

GLM-4.6 技术博客:https://z.ai/blog/glm-4.6


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
LeCun团队开源首个代码世界模型:能生成代码还能自测自修!传统编程模型一夜成古典
干掉同声传译?阿里又开源一模型,精通18种语言,离线可用
京东AI一揽子开源!超多核心项目全开源,GitHub万star项目也有新进展了
首个零样本跨本体泛化开源具身模型:智源RoboBrain-X0 技术细节全解析
软件全面开源开放,昇腾AI生态发展进入加速期
【AI】Qwen开源版Banana来了!原生支持ControlNet
NeurIPS 2025 | 面向具身场景的生成式渲染器TC-Light来了,代码已开源
程序员失业?LeCun团队开源首个代码世界模型:能生成代码还能自测自修!
NeurIPS'25 开源|Co-Adaptation-3DGS:3DGS的过度共适应现象是稀疏视角重建伪影的核心原因
前沿 | 开源平台破解脑植入患者神经解码难题,精准神经疗法迈上新台阶
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号