深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败

AI科技大本营 2025-09-30 18:21
深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图1
整理 | 苏宓
出品 | CSDN(ID:CSDNnews)

双节小长假将近,国内国外大模型公司闻风而动,赶在正式放假前让众人“小卷”一波。这不,继昨晚 DeepSeek 发布 之后,Anthropic 又在今天带来了全新升级的 Claude Sonnet 4.5 版本,号称“世界上最好的编码模型”。

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图2


深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图3

最强的编码模型 Claude Sonnet 4.5 来了:可自主持续运行 30 小时

根据官方测试结果显示,Claude Sonnet 4.5 在 SWE-bench Verified 评测里拿下了顶级成绩,这个测试主要看模型在真实世界里写代码的水平。

实际测试中,Claude Sonnet 4.5 能在复杂的多步骤任务上坚持专注超过 30 个小时。相比此前 Opus 4 运行 7 小时左右的时间,Claude Sonnet 4.5 有了大幅优化与改进。这对于 Anthropic 想要构建的代理系统而言,是一个重要的里程碑。

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图4

不仅如此,Sonnet 4.5 在电脑操作方面也有明显提升。在 OSWorld 这个专门测试 AI 完成真实电脑任务的评测中,它拿下了 61.4% 的成绩。而就在四个月前,Sonnet 4 还凭借 42.2% 排名第一。

现在这些升级过的能力已经整合进 Claude 的 Chrome 插件,根据官方演示,可以看到这个大模型能够直接在浏览器里操作:打开网站、填写表格、完成任务等等。

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图5

同时,Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出,在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远超过更昂贵的 GPT-5、Gemini 2.5 Pro 等竞品模型。

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图6

此外,来自金融、法律、医学和理工科等领域的专家一致认为,它在专业知识和推理能力上,已经远远超过了之前的模型(包括 Opus 4.1)。

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图7


深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图8
有效改进的“幻觉”、“谄媚”、“欺骗”等问题
要知道,如果不加以审查,AI 自主生成的代码一旦投入生产环境,往往会带来各种潜在风险。对此,Anthropic 表示,Claude Sonnet 4.5 不仅是当前最强的模型,也是他们迄今推出的最“对齐”的前沿模型

Anthropic 透露,其模型已经接受“广泛”的安全训练,也增强了 Sonnet 4.5 对即时注入攻击的防护。数据显示,其使用自动化行为审计工具对模型进行了评估,得分越低代表越安全。所谓“不对齐行为”包括但不限于:欺骗、迎合、权力攫取、鼓励妄想,以及响应危险系统指令。

在一众大模型中,Sonnet 4.5 评分是最低的。

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图9

此外,Claude Sonnet 4.5 按照 AI 安全等级 3(ASL-3) 标准发布,这意味着它配备了与能力水平相匹配的防护措施。例如通过分类器(classifier) 来过滤潜在的危险输入和输出,尤其是涉及化学、生物、放射和核武器(CBRN)的内容。

不过,Anthropic 也承认这些分类器有时会误伤正常内容。为此,他们提供了便捷的切换方案,用户可以改用 CBRN 风险更低的 Sonnet 4 继续对话。值得注意的是,团队在减少“误报”方面已取得显著成果:与最初版本相比,误报率降低了 10 倍;与今年 5 月发布的 Claude Opus 4 相比,也下降了一半。


深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图10

重磅更新的 Claude Code

对于开发者而言,最为关注的莫过于 Claude Code 的最新进展。

Anthropic 表示,他们花了六个多月的时间更新 Claude Code 的能力,在 Sonnet 4.5 的支持下,Claude Code 现在能够在终端和 IDE 中处理更长、更复杂的开发任务。

此次也带来了不少更新,具体包括:

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图11
深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图12
深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图13

在官方公告中,Anthropic 建议,Checkpoint 可以与 Claude Code 最新功能配合使用效果最佳,譬如:

这些能力使  Claude Code 可以用于一些大规模重构或功能探索等任务。


深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图14

其他功能

不止如此,Anthropic 还同步对产品进行了多项升级:

Anthropic 还推出了一个限时实验功能 “Imagine with Claude”。在这个实验中,Claude 能实时生成软件:没有预设功能,也没有预写代码,它会根据用户的即时交互需求进行创造和适配。当前,“Imagine with Claude” 对 Max 用户开放 5 天,可在 claude.ai/imagine 体验。

Claude Sonnet 4.5 今天即可使用。如果是开发者,可通过 Claude API 调用 claude-sonnet-4.5。Sonnet 4.5 的 API 定价与 4.0 相同,保持不变:百万输入 token 收费 3 美元,每 百万输出 token 收费 15 美元


深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图15

开发者实测

随着 Claude Sonnet 4.5 和全新 Claude Code 的上线,不少开发者第一时间上手体验,纷纷分享了他们的惊喜与疑问。

一位开发者 This is Dmitry Zhomir 尝试让 Claude 4.5 Sonnet 用 Three.js 制作一个简单的 3D 射击游戏,结果让人震惊:

「我甚至都不用提供贴图和音效,它自己全都生成了。难道 Anthropic 要取代游戏开发者了吗??」

还有人做了简单的 SVG 测试,这是由 Claude Sonnet 4.5 生成的作品:

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图16

这是 GPT-5 生成的:

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图17

觉得哪一个更胜一筹?

当然,也有人指出,AI 并不能完全替代人工。开发者 Vas 分享了他的体验:

“Claude 4.5 Sonnet 一次调用就重构了我的整个代码库。
调用了 25 个工具,新增了 3000 多行代码,创建了 12 个全新文件。
它把所有东西模块化,拆分了巨型单体结构,整理了凌乱的代码。
可惜,这些都没能运行……
但不得不说,效果真是赏心悦目。”
深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图18

与此同时,有人向悄悄向 Sam Altman 发问:“Dario 刚刚发布了 Claude 4.5,它在编程、代理任务和计算机使用上已经击败了 GPT-5;同时 Deepseek 也推出了新模型,推理成本降低了 10 倍,API 成本降低了 50%……”你们准备如何应对?

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图19

据报道,未来两周 OpenAI 将发布新产品。Wired 消息显示,他们计划为 Sora 2 推出一款独立社交媒体应用,类似抖音,但内容将 100% 由 AI 根据用户 prompt 生成,无需用户亲自拍摄或剪辑。

可以说,新一轮的 AI “内卷”已经悄然开启。面对这一波工具更新,你会如何看待?

推荐阅读:

深夜炸场!Claude Sonnet 4.5上线,自主编程30小时,网友实测:一次调用重构代码库,新增3000行代码却运行失败图20

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号