深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败

整理 | 苏宓

出品 | CSDN（ID：CSDNnews）

双节小长假将近，国内国外大模型公司闻风而动，赶在正式放假前让众人“小卷”一波。这不，继昨晚 DeepSeek 发布之后，Anthropic 又在今天带来了全新升级的 Claude Sonnet 4.5 版本，号称“世界上最好的编码模型”。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图2

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图3

最强的编码模型 Claude Sonnet 4.5 来了：可自主持续运行 30 小时

根据官方测试结果显示，Claude Sonnet 4.5 在 SWE-bench Verified 评测里拿下了顶级成绩，这个测试主要看模型在真实世界里写代码的水平。

实际测试中，Claude Sonnet 4.5 能在复杂的多步骤任务上坚持专注超过 30 个小时。相比此前 Opus 4 运行 7 小时左右的时间，Claude Sonnet 4.5 有了大幅优化与改进。这对于 Anthropic 想要构建的代理系统而言，是一个重要的里程碑。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图4

不仅如此，Sonnet 4.5 在电脑操作方面也有明显提升。在 OSWorld 这个专门测试 AI 完成真实电脑任务的评测中，它拿下了 61.4% 的成绩。而就在四个月前，Sonnet 4 还凭借 42.2% 排名第一。

现在这些升级过的能力已经整合进 Claude 的 Chrome 插件，根据官方演示，可以看到这个大模型能够直接在浏览器里操作：打开网站、填写表格、完成任务等等。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图5

同时，Sonnet 4.5 在推理和数学等多项测试中也有大幅提升。从下图看出，在 Agentic Coding、Agentic Tool Use 等测试中 Claude Sonnet 4.5 远超过更昂贵的 GPT-5、Gemini 2.5 Pro 等竞品模型。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图6

此外，来自金融、法律、医学和理工科等领域的专家一致认为，它在专业知识和推理能力上，已经远远超过了之前的模型（包括 Opus 4.1）。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图7

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图8

有效改进的“幻觉”、“谄媚”、“欺骗”等问题

要知道，如果不加以审查，AI 自主生成的代码一旦投入生产环境，往往会带来各种潜在风险。对此，Anthropic 表示，Claude Sonnet 4.5 不仅是当前最强的模型，也是他们迄今推出的最“对齐”的前沿模型。

Anthropic 透露，其模型已经接受“广泛”的安全训练，也增强了 Sonnet 4.5 对即时注入攻击的防护。数据显示，其使用自动化行为审计工具对模型进行了评估，得分越低代表越安全。所谓“不对齐行为”包括但不限于：欺骗、迎合、权力攫取、鼓励妄想，以及响应危险系统指令。

在一众大模型中，Sonnet 4.5 评分是最低的。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图9

此外，Claude Sonnet 4.5 按照 AI 安全等级 3（ASL-3） 标准发布，这意味着它配备了与能力水平相匹配的防护措施。例如通过分类器（classifier） 来过滤潜在的危险输入和输出，尤其是涉及化学、生物、放射和核武器（CBRN）的内容。

不过，Anthropic 也承认这些分类器有时会误伤正常内容。为此，他们提供了便捷的切换方案，用户可以改用 CBRN 风险更低的 Sonnet 4 继续对话。值得注意的是，团队在减少“误报”方面已取得显著成果：与最初版本相比，误报率降低了 10 倍；与今年 5 月发布的 Claude Opus 4 相比，也下降了一半。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图10

重磅更新的 Claude Code

对于开发者而言，最为关注的莫过于 Claude Code 的最新进展。

Anthropic 表示，他们花了六个多月的时间更新 Claude Code 的能力，在 Sonnet 4.5 的支持下，Claude Code 现在能够在终端和 IDE 中处理更长、更复杂的开发任务。

此次也带来了不少更新，具体包括：

原生 VS Code 插件：Anthropic 即将推出一个原生 VS Code 插件的 Beta 版本，将 Claude Code 直接引入 IDE。用户可以通过专用侧边栏面板实时查看 Claude 对代码的修改，并看到内联差异（inline diffs）。这款插件为偏好在 IDE 中开发的用户提供了更直观、更丰富的 Claude Code 使用体验。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图11

终端界面升级：Claude Code 的终端界面也进行了升级，新增了更清晰的状态显示和可搜索的提示历史（Ctrl+r），方便用户重复使用或编辑之前的指令。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图12

Claude Agent SDK 来了：对于想要创建自定义代理体验的团队，Anthropic 将用于构建 Claude Code 的核心“模块”开放给开发者，命名为 Claude Agent SDK。
这套底层基础设施不仅支撑 Claude Code，也适用于各种任务，开发者可以用它搭建自己的智能体。它解决了智能体在长任务中管理记忆、平衡自主性与用户控制，以及协调多个子智能体协作等难题。正如官方所说，当初开发 Claude Code，是因为市面上没有合适的工具；现在，Agent SDK 让开发者也能用同样的基础打造强大工具，解决各自的业务问题。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图13

checkpoint 功能：Claude Code 增加了用户期待已久的 checkpoint 功能，因为复杂开发往往需要不断探索和迭代。新系统会在每次修改前自动保存代码状态，用户可以通过双击 Esc 或使用 /rewind 命令瞬间回退到先前版本。Checkpoint 可让开发者放心尝试大规模或复杂任务，同时保证可以随时恢复之前的代码状态。回退时，用户可以选择恢复代码、对话或两者兼顾。Checkpoint 仅适用于 Claude 的修改，不会影响用户手动编辑或 Bash 命令。官方建议将其与版本控制结合使用，以获得最佳效果。

在官方公告中，Anthropic 建议，Checkpoint 可以与 Claude Code 最新功能配合使用效果最佳，譬如：

子智能体可以委派专门任务，例如在主智能体构建前端的同时启动后台 API，实现并行开发；
钩子（Hooks）可在特定环节自动触发操作，如代码修改后运行测试套件，或提交前进行 lint 检查；
后台任务可以保持长时间运行的进程（如开发服务器）活跃，同时不阻塞 Claude Code 处理其他工作。

这些能力使 Claude Code 可以用于一些大规模重构或功能探索等任务。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图14

其他功能

不止如此，Anthropic 还同步对产品进行了多项升级：

Claude API 新增上下文编辑和记忆工具，让智能体可以运行更长时间、处理更复杂的任务；
Claude 应用中，现在可以直接在对话里运行代码和生成文件（包括表格、幻灯片和文档）；
Chrome 插件已对上个月排队的 Max 用户开放。

Anthropic 还推出了一个限时实验功能 “Imagine with Claude”。在这个实验中，Claude 能实时生成软件：没有预设功能，也没有预写代码，它会根据用户的即时交互需求进行创造和适配。当前，“Imagine with Claude” 对 Max 用户开放 5 天，可在 claude.ai/imagine 体验。

Claude Sonnet 4.5 今天即可使用。如果是开发者，可通过 Claude API 调用 claude-sonnet-4.5。Sonnet 4.5 的 API 定价与 4.0 相同，保持不变：每百万输入 token 收费 3 美元，每百万输出 token 收费 15 美元。

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图15

开发者实测

随着 Claude Sonnet 4.5 和全新 Claude Code 的上线，不少开发者第一时间上手体验，纷纷分享了他们的惊喜与疑问。

一位开发者 This is Dmitry Zhomir 尝试让 Claude 4.5 Sonnet 用 Three.js 制作一个简单的 3D 射击游戏，结果让人震惊：

「我甚至都不用提供贴图和音效，它自己全都生成了。难道 Anthropic 要取代游戏开发者了吗？？」

还有人做了简单的 SVG 测试，这是由 Claude Sonnet 4.5 生成的作品：

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图16

这是 GPT-5 生成的：

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图17

你觉得哪一个更胜一筹？

当然，也有人指出，AI 并不能完全替代人工。开发者 Vas 分享了他的体验：

“Claude 4.5 Sonnet 一次调用就重构了我的整个代码库。

调用了 25 个工具，新增了 3000 多行代码，创建了 12 个全新文件。

它把所有东西模块化，拆分了巨型单体结构，整理了凌乱的代码。

可惜，这些都没能运行……

但不得不说，效果真是赏心悦目。”

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图18

与此同时，有人向悄悄向 Sam Altman 发问：“Dario 刚刚发布了 Claude 4.5，它在编程、代理任务和计算机使用上已经击败了 GPT-5；同时 Deepseek 也推出了新模型，推理成本降低了 10 倍，API 成本降低了 50%……”你们准备如何应对？

深夜炸场！Claude Sonnet 4.5上线，自主编程30小时，网友实测：一次调用重构代码库，新增3000行代码却运行失败图19

据报道，未来两周 OpenAI 将发布新产品。Wired 消息显示，他们计划为 Sora 2 推出一款独立社交媒体应用，类似抖音，但内容将 100% 由 AI 根据用户 prompt 生成，无需用户亲自拍摄或剪辑。

可以说，新一轮的 AI “内卷”已经悄然开启。面对这一波工具更新，你会如何看待？

更多内容可参考官方公告：https://www.anthropic.com/news/claude-sonnet-4-5