Anthropic推Claude“自动模式”:AI可自主判断安全操作,减少开发者干预

科技区角 2026-03-25 06:00

【科技24时区】对于当前使用人工智能进行开发的程序员而言,“氛围式编程”(vibe coding)往往意味着要么全程紧盯AI每一步操作,要么冒险放任模型自由运行。针对这一两难困境,人工智能公司Anthropic近日宣布,其最新版Claude模型引入“自动模式”(Auto Mode),旨在让AI在限定范围内自主判断哪些操作是安全的,从而消除非此即彼的选择。

此举反映了整个AI行业的一个明显趋势:工具正越来越多地被设计为无需人类逐项批准即可执行任务。然而,关键挑战在于如何在效率与可控性之间取得平衡——过多的安全限制会拖慢开发节奏,而限制过少则可能导致系统行为失控甚至引发安全风险。

目前,“自动模式”尚处于研究预览阶段,意味着开发者可参与测试,但产品尚未正式发布。该模式通过内置的AI安全机制,在每次执行操作前进行审查,重点识别两类风险:一是用户未明确请求却可能触发的危险行为;二是“提示注入”(prompt injection)攻击——即恶意指令被隐藏在AI处理的内容中,诱使其执行非预期操作。经判定为安全的操作将自动执行,高风险操作则会被拦截。

从技术逻辑看,这一功能可视为Claude Code现有“dangerously-skip-permissions”命令的升级版。后者曾将全部决策权交予AI,而新版本在此基础上叠加了一层安全过滤机制。值得注意的是,Anthropic并非孤例。GitHub、OpenAI等公司也已推出可代开发者执行任务的自主编码工具,但Claude的“自动模式”更进一步——它将“何时需要征得用户许可”的判断权,从人类转移给了AI自身。

不过,Anthropic尚未公开其安全层具体依据哪些标准来区分“安全”与“风险”操作。这一信息对开发者至关重要,很可能影响该功能的大规模采纳意愿。目前,TechCrunch已就此向该公司寻求进一步说明。

此次“自动模式”的推出,紧随Anthropic近期发布的两项重要功能:一是Claude Code Review,一款可在代码入库前自动检测漏洞的智能审查工具;二是Dispatch for Cowork,允许用户将任务委派给AI代理代为处理。三者共同构成了Anthropic在开发者工作流自动化领域的完整布局。

据悉,“自动模式”将在未来数日内面向企业客户及API用户开放。Anthropic特别强调,该功能目前仅支持Claude Sonnet 4.6和Opus 4.6版本,并建议开发者在“隔离环境”(isolated environments)中使用——即通过沙箱机制将测试环境与生产系统完全分离,以最大限度降低潜在故障带来的实际损失。

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI 安全
more
蔡崇信在西门子RXD大会断言:AI不会取代CEO,岗位始终安全
Anthropic正式推出“Claude版龙虾”:AI可远程操控电脑执行复杂任务
前苹果设计师加盟神秘AI初创Hark,聚焦“端到端个人智能”硬件革新
突然!OpenAI关停Sora,烧钱烧不起,留客留不住
OpenAI重磅揭秘:你认为的AI幻觉,可能是模型故意出错
京东京造,加速制造 AI+ 爆款
昨夜今晨全球大公司动态 | OpenAI将停止Sora视频生成服务;AI正改写谷歌搜索和SEO的既有规则
深圳发力AI服务器产业链,重点发展这些芯片
「Token」定名「词元」;小米卢伟冰:反对「AI 手机」概念化;英伟达黄仁勋:希望在工作中突然死去 | 极客早知道
黄仁勋警示AI冲击波及全行业,蓝领亦需掌握AI技能以保就业竞争力
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号