Anthropic推Claude“自动模式”：AI可自主判断安全操作，减少开发者干预

【科技24时区】对于当前使用人工智能进行开发的程序员而言，“氛围式编程”（vibe coding）往往意味着要么全程紧盯AI每一步操作，要么冒险放任模型自由运行。针对这一两难困境，人工智能公司Anthropic近日宣布，其最新版Claude模型引入“自动模式”（Auto Mode），旨在让AI在限定范围内自主判断哪些操作是安全的，从而消除非此即彼的选择。

此举反映了整个AI行业的一个明显趋势：工具正越来越多地被设计为无需人类逐项批准即可执行任务。然而，关键挑战在于如何在效率与可控性之间取得平衡——过多的安全限制会拖慢开发节奏，而限制过少则可能导致系统行为失控甚至引发安全风险。

目前，“自动模式”尚处于研究预览阶段，意味着开发者可参与测试，但产品尚未正式发布。该模式通过内置的AI安全机制，在每次执行操作前进行审查，重点识别两类风险：一是用户未明确请求却可能触发的危险行为；二是“提示注入”（prompt injection）攻击——即恶意指令被隐藏在AI处理的内容中，诱使其执行非预期操作。经判定为安全的操作将自动执行，高风险操作则会被拦截。

从技术逻辑看，这一功能可视为Claude Code现有“dangerously-skip-permissions”命令的升级版。后者曾将全部决策权交予AI，而新版本在此基础上叠加了一层安全过滤机制。值得注意的是，Anthropic并非孤例。GitHub、OpenAI等公司也已推出可代开发者执行任务的自主编码工具，但Claude的“自动模式”更进一步——它将“何时需要征得用户许可”的判断权，从人类转移给了AI自身。

不过，Anthropic尚未公开其安全层具体依据哪些标准来区分“安全”与“风险”操作。这一信息对开发者至关重要，很可能影响该功能的大规模采纳意愿。目前，TechCrunch已就此向该公司寻求进一步说明。

此次“自动模式”的推出，紧随Anthropic近期发布的两项重要功能：一是Claude Code Review，一款可在代码入库前自动检测漏洞的智能审查工具；二是Dispatch for Cowork，允许用户将任务委派给AI代理代为处理。三者共同构成了Anthropic在开发者工作流自动化领域的完整布局。

据悉，“自动模式”将在未来数日内面向企业客户及API用户开放。Anthropic特别强调，该功能目前仅支持Claude Sonnet 4.6和Opus 4.6版本，并建议开发者在“隔离环境”（isolated environments）中使用——即通过沙箱机制将测试环境与生产系统完全分离，以最大限度降低潜在故障带来的实际损失。