闻乐 发自 凹非寺
量子位 | 公众号 QbitAI
发布即拿下各项SOTA的Claude Opus 4.1,也翻车了。
不止一位用户反馈Claude Opus 4.1变得迟钝,于是把官方炸出来承认:Claude Opus 4.1在处理某些请求时确实出现了质量退化。

Claude Opus 4.1到底出现了什么问题?
Claude Opus 4.1白天推理性能下降
实际上,在Anthropic发声明的前几天就有用户发帖表示:Claude Opus 4.1在上午10点到11点这段时间性能非常差。
模型经常像变了个人,在完成处理文稿任务时总是出现很多错误。但是这种质量下滑却在凌晨时消失。

有人猜测,导致这一现象的原因可能是Claude Opus 4.1白天采用1.58位量化。
这种方式的首要问题在于对模型精度影响较大。
量化本质是将模型参数从标准的16位浮点(FP16)或32位浮点(FP32)降低到低位格式,1.58位量化更是极端,仅用 {-1, 0, 1} 三个值来表示参数。
由于在信息论中,三个可能的值需要log₂(3)≈1.58496 bits来表示,这种量化方式也因此得名。
然而,这样虽然减少了内存使用,却很容易让模型丢失关键信息。
就像在Claude Opus 4.1中,如果白天使用1.58 位量化为大量用户服务,模型在处理复杂问题时,智能水平就会明显下滑,代码逻辑分析出错、文案撰写逻辑混乱,连常规任务表现也不尽人意。
在实际应用中,1.58位量化还可能导致模型稳定性欠佳。当模型参数被强制限定在有限的三个值时,面对复杂多变的输入数据,它的应对能力就会受到制约。
在一些需要对输入数据进行精准处理的场景下,例如医学图像分析、金融风险预测等,模型可能因1.58位量化无法准确捕捉数据特征,给出错误结果,进而影响整个系统的稳定性和可靠性。
除了白天性能下降的问题,在使用限制方面,官方的回应也并不明确。
用户反映有一次使用Claude Opus 4.1不到两小时,就已经达到了使用上限。去询问客服时,得到的反馈一会儿是由于使用时长限制,一会儿又说是使用量。

并且,限额的问题也不止一位用户反映。

甚至有用户反映该模型还会暴露API密钥。

面对这么多吐槽,好在Anthropic官方没让人等太久,出来回应了。
直接承认是推理堆栈出了问题,本来是想提升模型效率,结果没想到影响了响应质量。(没找借口,态度倒是挺实在)
而且解决速度也快已经把Claude Opus 4.1的版本回滚了,还特意提了Claude Opus 4.0也受了同样影响,正在处理,算是把问题考虑周全了。

声明一发,有网友调侃称还是第一次看到“明星公司”承认模型出了问题。

看来Anthropic良好的认错态度还是被广大网友接受了。
不过话说回来,Claude的用户们,你们最近有没有察觉Opus 4.1的质量下滑呢?
参考链接:
[1]https://x.com/TheAhmadOsman/status/1961870729609175088
[2]https://status.anthropic.com/incidents/h26lykctfnsz
[3]https://www.reddit.com/r/Anthropic/comments/1n28ya2/claude_opus_is_all_over_the_place_lately_and_i/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —


🌟 点亮星标 🌟