Claude for Chrome 项目

Anthropic 正面向其 Max 订阅计划中的 1000 名用户试点 Claude for Chrome 项目,该计划的月费在 100 到 200 美元之间。
Claude for Chrome 的作用如同一位谨慎的人类助手,能够阅读页面、点击按钮、填写表单并在不同网站间跳转。
通过在 Chrome 中添加一个扩展程序,部分特选用户现在可以在一个侧边栏窗口中与 Claude 对话,该窗口能持续感知浏览器中发生的一切。用户还可以授权 Claude 智能体在浏览器中执行操作,并代表他们完成某些任务。
直面「提示注入」的核心风险
浏览器的使用带来了若干安全挑战——其中最值得注意的是提示注入,即恶意行为者通过隐藏指令来诱骗 Claude 执行有害操作。其风险在于,页面上的内容可能携带隐藏指令,而智能体通常无法区分文本是需要处理的数据,还是需要遵循的命令。
这种技巧就是提示注入,它可以通过电子邮件、文档、聊天消息、隐藏的 HTML,甚至 URL 地址栏和标签页标题等多种途径植入。
Anthropic 的红队(Red team)构建了覆盖 29 种攻击类型的 123 个测试用例,并观察到智能体会遵循诸如删除邮件之类的恶意指令。
在部署新的防御措施之前,原始的定向攻击成功率为 23.6%,这是一个真实的失效率,而非假设值。随后,该公司增加了防护机制,在自主模式下将该成功率降至 11.2%,这虽有改善,但仍不足以进行大规模推广。
他们还攻击了浏览器特有的漏洞,例如文档对象模型中不可见的表单字段、藏匿在 URL 文本中的指令以及被植入恶意内容的标签页标题。
在一个专注于这些浏览器漏洞的挑战集上,缓解措施将攻击成功率从 35.7% 降至 0%,这表明当威胁范围被明确界定时,针对性的防御是有效的。
第一层安全防护是站点级权限,用户可以允许或阻止智能体访问特定域名。第二层是针对高风险操作的确认机制,例如发布内容、进行购买或分享个人数据,即便在自主模式开启时也需要用户确认。
Anthropic 还屏蔽了包括金融服务、成人内容和盗版内容在内的整个类别,以缩小潜在的爆炸半径。
智能体的机遇
竞争格局正日趋激烈,OpenAI 的 Operator 智能体已率先向每月 200 美元的 ChatGPT Pro 客户推出,而微软也正在将计算机使用能力整合到其面向企业自动化的 Copilot Studio 中。
这些系统旨在实现相同的目标,即在无需定制化集成的情况下,自动化多工具工作流——这种定制化集成在用户界面发生变化时常常会失效。
更多前沿的研究信号也已出现:Salesforce 的 CoAct-1
模型融合了点击式控制与代码生成,在处理复杂任务时成功率达到了 60.76%,并且比纯粹的点击式操作步骤更少。
另一个信号是来自香港大学的 OpenCUA
,该模型在涵盖 Windows、macOS 和 Ubuntu 的 22,600 个人类任务演示上进行了训练,将开源模型的能力推向了接近商业系统的水平。
如果这类智能体成功落地,团队将能够跨越各种不兼容的工具,自动化处理工单分类、退款、新员工入职、数据录入和运维手册等任务,即便只有浏览器可用也能实现。
其中的关键难点在于信任边界,因为正是那些赋予智能体实用性的“眼睛”和“手”,也使其极易被看似常规的内容所欺骗。
一个实用的心智模型是:将每个网页都视为不可信的输入,让智能体将数据与指令分离开,并要求人类对任何不可逆的操作进行审批。
参考资料:https://www.anthropic.com/news/claude-for-chrome
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!