作者 | 刘聪NLP 编辑 | 大模型之心Tech
原文链接:
点击下方卡片,关注“大模型之心Tech”公众号
本文只做学术分享,如有侵权,联系删文,自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
DeepSeek-V3.2也上了,Claude 4.5也更新了,昨天晚上Sora2也出了,那么十一卷起来吧!
体验了一下Sora2有点牛逼,但我华为手机,没法创建Cameo,我太难受了。

Sam Altman真是被玩爆了,哈哈哈哈!!!
书归正传,昨天写汇总的时候,GLM-4.6还是coming soon,然后昨天晚上model也是放了出了!

官方文档上说,GLM-4.6相较于GLM-4.5,上下文窗口更长,从128K扩展到200K,Code、推理、Agent工具调用能力均有提高,同时写作风格更拟人。
我们来看看怎么回事儿~
先来一个长文总结功能,让模型直接读PDF然后生成HTML界面,这里考验的是模型对内容的解读,以及效果展示。
就拿DeepSeek-V3.2技术报告来测试,主要是我刚解读完,内容我熟悉,哈哈哈哈~
不了解的可以看一下我写,
GLM-4.6模型效果,整体风格遵循比较好,同时内容展现很好,公式都展示出来
但内容上稍微有点瑕疵,一个是图画的跟原文有点区别,第二个是训练的内容还有后面Post-Training没有写。
再看DeepSeek-V3.2的效果,风格一致,不过整个排版一般,没有图,同时对公式没有渲染出来,训练部分的内容存在出入,写了Post-Training,但只有专家蒸馏,没有RL部分内容,就很奇怪。
我还测试了Qwen3-Max,我发现对于图的内容展示,确实存在问题,这个应该是本身模型是LLM模型,VL部分是其他方式进行理解的,所以会不太好。
再来一个One Prompt生成小游戏,也是之前经常测试例子,我发现GLM-4.6的智能性提高人多。
在生成五子棋游戏的时候,之前人机对战,都是呆呆地,很少会进行堵截,导致AI像个傻子,GLM-4.6直接生成内容,竟然还可以玩上一会儿。
然后我还想说,DeepSeek-V3.2这波是变快了,结构上极度稀疏,很牛逼,推理成本降了很多,虽然论文里很多榜单是持平地,但是体感下降不少。
这个游戏之前基本上不会出什么问题,然后现在当前版本问题有点大。
我还发现一个问题,就是GLM-4.6开了深度思考之后,可能对一些逻辑思考问题会过度思考,导致错误,
这是非推理状态下地回答结构,

深度思考之后,由于深度思考类了,导致思考内容是藏语和普通话了,开始了battle。

然后我们再来看一下,GLM-4.6在整个项目中的效果,直接Cluade Code写代码,
昨天cc也是更新到2.0了,增加了个恢复机制,当你觉得cc修改的这个版本代码不行,可以运行 /rewind 进行代码撤销,恢复原来版本。
有个der的地方,就是配置url的时候,不显示url链接的,我一度以为没配成功,反过来一想,我都没冲钱,claude也不会白给我用,哈哈哈哈!
操作就是,在开放平台获取智谱 API Key:https://open.bigmodel.cn/usercenter/proj-mgmt/apikeys

然后运行:
# 你是linux或者mac运行
export ANTHROPIC_BASE_URL="https://open.bigmodel.cn/api/anthropic"
export ANTHROPIC_AUTH_TOKEN="your bigmodel API keys"
# 你是windows运行
$env: ANTHROPIC_BASE_URL="https://open.bigmodel.cn/api/anthropic"
$env: ANTHROPIC_AUTH_TOKEN="your bigmodel API keys"
输入 Claude,即可启动。

测试之前获取36kr里AI部分内容,然后实时了解AI相关文章,当然后面可以做很多,比如给领导汇报,定时推送等等,当然信息源可以是多种,我只是选了这个,因为之前测试过这个例子,方便比较。
我现在有一个爬虫需求,目标是爬取某个网站的内容,使用 Python 实现。
## 基本要求- 目标网页:https://36kr.com/information/AI/- 技术栈: - Python 3.11 - 使用 uv 管理项目 - 爬虫部分使用 异步编程(asyncio),要支持并发抓取## 网页元素获取方式- 你可以使用 playwright-mcp 这个mcp进行页面加载和元素获取- 或者直接访问网页内容- 元素选择方式可以使用 Xpath 或 CSS Selector## 数据提取- 使用 parsel 库来进行解析与提取## 功能目标- 定时任务:定时爬取目标网页- 数据提取:提取 最新的 Top 30 新闻,包括:标题、链接、发布时间、摘要- 数据展示:提供一个简单的前端页面展示结果## 注意事项- 爬虫代码必须使用 异步 + 并发 模式实现- 要有清晰的模块划分,例如: fetcher.py:页面获取, parser.py:解析逻辑, scheduler.py:定时调度,webapp.py:前端展示- 前端页面需实现的比较美观,能够展示爬取到的Top30新闻,同时支持手动更新
PS:这是个例子哈,仅供学习,请注意!!
整体感觉GLM-4.6比之前用起来更丝滑,之前还要交互很多次,现在我写好一个提示词,然后就自己交互了,很舒服。
生成的东西效果也很不错,最新的内容也都爬取到了,有点强
数据也在后台json存储~

最后想说,
智谱这波开源GLM-4.6,在真实任务还是超预期的,效果很棒,
对比之前有提高,对比国内模型也是top的存在了,
直追Claude模型,反正我是真退订了,
最近一直在用国内模型,虽然还是有点差距,但是也还能用的
不知道GLM5啥时候出,期望一波遥遥领先~
写完这篇去玩sora2了,OpenAI还是那个OpenAI,这波sora2舒适很真实!
大模型之心Tech知识星球交流社区
我们创建了一个全新的学习社区 —— “大模型之心Tech”知识星球,希望能够帮你把复杂的东西拆开,揉碎,整合,帮你快速打通从0到1的技术路径。
星球内容包含:每日大模型相关论文/技术报告更新、分类汇总(开源repo、大模型预训练、后训练、知识蒸馏、量化、推理模型、MoE、强化学习、RAG、提示工程等多个版块)、科研/办公助手、AI创作工具/产品测评、升学&求职&岗位推荐,等等。
星球成员平均每天花费不到0.3元,加入后3天内不满意可随时退款,欢迎扫码加入一起学习一起卷!