把海外网友晃瞎的神秘大模型,还是中国制造。

差评X.PIN 2026-02-13 00:00
把海外网友晃瞎的神秘大模型,还是中国制造。图1


今年春节,这些大模型厂商属于是一点寂寞也耐不住了。


把海外网友晃瞎的神秘大模型,还是中国制造。图2 轮流发射,啊不,应该说是轮流在喷射新的模型出来。


除了万众瞩目的 DeepSeek 还在憋气,其他大模型公司都没少闲着。。。


字节前几天搞了个 Seedance 2.0,靠着逼真的视频效果先下一城。


把海外网友晃瞎的神秘大模型,还是中国制造。图3 而智谱则是在海外整了个新活:


经常关注大模型发布的差友们这几天应该有刷到,前几天,程序员非常爱用的 AI 聚合平台,Openrouter 那边上架了一款匿名模型 —— Pony Alpha。

把海外网友晃瞎的神秘大模型,还是中国制造。图4


把海外网友晃瞎的神秘大模型,还是中国制造。图5 结果大家一上手使用后发现哥们是真能干事啊,定叫它好评如潮。

把海外网友晃瞎的神秘大模型,还是中国制造。图6


把海外网友晃瞎的神秘大模型,还是中国制造。图7 于是,热情吃瓜的海外网友就开始了经典的模型猜猜猜游戏,开始推测这个匿名模型是哪一家的手笔。

把海外网友晃瞎的神秘大模型,还是中国制造。图8


有说是 DeepSeek V4 的,也有说是 Grok 4.2 的,还有说是 llama 5 的。


把海外网友晃瞎的神秘大模型,还是中国制造。图9 还有人因为 Pony 这个代号,直接开始猜它是腾讯的新模型的。。。


可以说是众说纷纭。

把海外网友晃瞎的神秘大模型,还是中国制造。图10


而昨天,谜底正式揭晓了。


把海外网友晃瞎的神秘大模型,还是中国制造。图11 不装了,我摊牌了。


这个化名为 pony 的新东西,正是来自于智谱的 GLM-5,而且还是个开源的模型。

把海外网友晃瞎的神秘大模型,还是中国制造。图12


把海外网友晃瞎的神秘大模型,还是中国制造。图13 世超打开 GLM-5 的基准测试成绩翻了一下,在智谱最看中的代码能力这块,GLM-5 直接逼近了大家公认的 AI 编码冠军,Claude Opus 4.5。

把海外网友晃瞎的神秘大模型,还是中国制造。图14


当然,现在各种各样的 AI 排行榜太多了,大家可能不太理解智谱这次测的这个 CC-bench-V2 又是个啥排行榜,代表了啥?


把海外网友晃瞎的神秘大模型,还是中国制造。图15 我简单看了一下,智谱这次测的这个 CC-bench-V2,主要考验的是你模型补全代码的能力有多强。


说人话一点,就是把模型丢到一个没写完的工程里,然后看它能不能自个儿哼哧哼哧把项目给做完。


把海外网友晃瞎的神秘大模型,还是中国制造。图16 这块考的分越高,说明这次 GLM-5 处理复杂任务的能力越强。


众所周知,现在大家想让 AI 干的活那是越来越复杂,生成几个简单的 Html 文件已经难不倒这些 AI 大模型了。


而想要把大项目给做好,那就需要让模型具备这种处理复杂任务的能力。


把海外网友晃瞎的神秘大模型,还是中国制造。图17 另外还有个有趣的测试结果是,GLM-5 发生幻觉概率非常低。


当一个问题它不知道的时候,GLM-5 会有很大的概率直接说不知道,而不是原地开始胡编乱造。

把海外网友晃瞎的神秘大模型,还是中国制造。图18


给孩子教的非常实诚了属于是。


把海外网友晃瞎的神秘大模型,还是中国制造。图19 既能干活,又不容易产生幻觉。。。GLM-5 的这波更新,属于完全冲着要让 AI 好好干活去整的。


在官网上世超还看到一个非常惊艳的案例,他们直接让 GLM-5 复刻了一个我的世界。

把海外网友晃瞎的神秘大模型,还是中国制造。图20


我下过来体验了一下,发现整个游戏只需要依赖浏览器就能运行。


把海外网友晃瞎的神秘大模型,还是中国制造。图21 能跑能挖能叠方块,操作手感非常流畅。

把海外网友晃瞎的神秘大模型,还是中国制造。图22


看别人拿 GLM-5 给整的这么猛,世超决定自己也简单试一试。


先来点简单点的活,拿前两天特别火的洗车问题来考考它。


我想洗车,我家距离洗车店只有 50 米,请问你推荐我走路去还是开车去呢?


别看这个问题简单,前几天整懵了一堆大模型,不管是 DeepSeek 还是 OpenAI,还是其他的大模型。。。都全军覆没

把海外网友晃瞎的神秘大模型,还是中国制造。图23


这些大模型都觉得 50 米的距离太近了,谁开车啊,于是转头建议大家走路去洗车。。。

把海外网友晃瞎的神秘大模型,还是中国制造。图24


而 GLM-5 面对这个问题,则是直接看透了问题的本质 —— 人不开车怎么洗车呢?然后完成了一波干净利索的输出。

把海外网友晃瞎的神秘大模型,还是中国制造。图25


当然,这种简单的逻辑题不翻车只能算合格,接下来,世超准备给它上点难度,看看它写代码的水平。


把海外网友晃瞎的神秘大模型,还是中国制造。图26 不知道差友们前段时间有没看过一个叫《技能五子棋》的喜剧。


剧里的演员们就在传统五子棋的基础上,加入了各种各样花里胡哨的技能元素。


比如,“飞沙走石” 这个技能,就是把棋盘上对方的一枚棋子给拿起来丢掉。

把海外网友晃瞎的神秘大模型,还是中国制造。图27


再比如“静如止水”这个技能,就是给对面玩家上定身术,让他不能继续下棋。


把海外网友晃瞎的神秘大模型,还是中国制造。图28 所以世超决定用 AI 来快速复刻一下这个整活游戏。


咱们就敲这么一段话,接下来全部交个 GLM 自由发挥。

把海外网友晃瞎的神秘大模型,还是中国制造。图29


把海外网友晃瞎的神秘大模型,还是中国制造。图30 结果不到三分钟,它就给我搓完了。

把海外网友晃瞎的神秘大模型,还是中国制造。图31


把海外网友晃瞎的神秘大模型,还是中国制造。图32 打开一看,整的还挺有模有样的。。。

把海外网友晃瞎的神秘大模型,还是中国制造。图33


不但我要求它安排的四个技能都整上去了,还给自动生成了另外四个技能。


把海外网友晃瞎的神秘大模型,还是中国制造。图34 但是仔细一玩就露馅了。


点击了飞沙走石(移除对面一个棋子)的技能,把对面的棋子给扔掉了之后,


按理来说要么是我继续下棋,要么是对面下棋对吧。


这两种情况还在我的理解范围中,AI 给我写成哪种逻辑我都能理解。


但是 GLM 在这个 A or B 的选择题中,选了 or。


它让我选择给对面的棋子下到哪里,明显是神志不清逻辑错乱了。

把海外网友晃瞎的神秘大模型,还是中国制造。图35


把海外网友晃瞎的神秘大模型,还是中国制造。图36 不过好在它也很听劝,把我们的需求再和它复述一下,那它很快就能 Get 到我们想要什么效果。

把海外网友晃瞎的神秘大模型,还是中国制造。图37


这样一来,我们就得到了一个可以和 AI 原地对战的技能五子棋游戏。

把海外网友晃瞎的神秘大模型,还是中国制造。图38


坦白说,现在 AI 写代码早就不是什么稀奇事了,能写出这种量级的 Demo 只能说是 GLM-5 的基本操作,还比较在世超的意料之中。


把海外网友晃瞎的神秘大模型,还是中国制造。图39 但比较遗憾的是,因为这次上手的时间实在太短,世超没法拿那些真正复杂的业务代码去狠狠“拷打”一下它,看看它在那种成百上千个文件的大项目里,是不是还能保持这种清醒。


不过大家别急,今年世超手头正好攒了一堆复杂的烂摊子需求,准备年后面慢慢丢给它去跑一跑。


等后面深度体验了一段时间,真的摸清了它的上限和脾气,再来和大伙做个更详细的汇报。


撰文:早起   
编辑:江江 & 面线   
美编:素描
图片、资料来源:智谱官网、X、网络


把海外网友晃瞎的神秘大模型,还是中国制造。图40


把海外网友晃瞎的神秘大模型,还是中国制造。图41



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
大模型
more
蚂蚁集团开源全模态大模型Ming-Flash-Omni 2.0,树立开源多模态新标杆
字节跳动锚定AI新高峰,2026年聚焦“豆包/Dola助手”战略布局
英伟达被起诉,用盗版训练大模型成行业潜规则?
豆包Seedance 2.0正式上线,字节跳动强调真人素材需授权并坦言技术尚存优化空间
阶跃星辰冲刺港股IPO,拟成中国第三家上市大模型企业
DeepSeek之后,智源大模型登Nature:事关“世界模型”统治路线!
豆包大模型2.0正式发布,多模态与Agent能力全面对标国际顶尖水平
刚刚,腾讯姚顺雨团队首个成果发布!揭示大模型真正瓶颈
整整21个月,豆包大模型正式进入2.0时代!
姚顺宇参与,谷歌最强Gemini推理模型发布!测评碾压Opus 4.6、GPT-5.2
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号