Anthropic 正式将旗下 AI Claude 集成至谷歌浏览器

Claude for Chrome 项目

Anthropic 正面向其 Max 订阅计划中的 1000 名用户试点 Claude for Chrome 项目，该计划的月费在 100 到 200 美元之间。

Claude for Chrome 的作用如同一位谨慎的人类助手，能够阅读页面、点击按钮、填写表单并在不同网站间跳转。

通过在 Chrome 中添加一个扩展程序，部分特选用户现在可以在一个侧边栏窗口中与 Claude 对话，该窗口能持续感知浏览器中发生的一切。用户还可以授权 Claude 智能体在浏览器中执行操作，并代表他们完成某些任务。

浏览器的使用带来了若干安全挑战——其中最值得注意的是提示注入，即恶意行为者通过隐藏指令来诱骗 Claude 执行有害操作。其风险在于，页面上的内容可能携带隐藏指令，而智能体通常无法区分文本是需要处理的数据，还是需要遵循的命令。

这种技巧就是提示注入，它可以通过电子邮件、文档、聊天消息、隐藏的 HTML，甚至 URL 地址栏和标签页标题等多种途径植入。

Anthropic 的红队（Red team）构建了覆盖 29 种攻击类型的 123 个测试用例，并观察到智能体会遵循诸如删除邮件之类的恶意指令。

资讯配图

在部署新的防御措施之前，原始的定向攻击成功率为 23.6%，这是一个真实的失效率，而非假设值。随后，该公司增加了防护机制，在自主模式下将该成功率降至 11.2%，这虽有改善，但仍不足以进行大规模推广。

他们还攻击了浏览器特有的漏洞，例如文档对象模型中不可见的表单字段、藏匿在 URL 文本中的指令以及被植入恶意内容的标签页标题。

在一个专注于这些浏览器漏洞的挑战集上，缓解措施将攻击成功率从 35.7% 降至 0%，这表明当威胁范围被明确界定时，针对性的防御是有效的。

第一层安全防护是站点级权限，用户可以允许或阻止智能体访问特定域名。第二层是针对高风险操作的确认机制，例如发布内容、进行购买或分享个人数据，即便在自主模式开启时也需要用户确认。

Anthropic 还屏蔽了包括金融服务、成人内容和盗版内容在内的整个类别，以缩小潜在的爆炸半径。

竞争格局正日趋激烈，OpenAI 的 Operator 智能体已率先向每月 200 美元的 ChatGPT Pro 客户推出，而微软也正在将计算机使用能力整合到其面向企业自动化的 Copilot Studio 中。

这些系统旨在实现相同的目标，即在无需定制化集成的情况下，自动化多工具工作流——这种定制化集成在用户界面发生变化时常常会失效。

更多前沿的研究信号也已出现：Salesforce 的 CoAct-1 模型融合了点击式控制与代码生成，在处理复杂任务时成功率达到了 60.76%，并且比纯粹的点击式操作步骤更少。

另一个信号是来自香港大学的 OpenCUA，该模型在涵盖 Windows、macOS 和 Ubuntu 的 22,600 个人类任务演示上进行了训练，将开源模型的能力推向了接近商业系统的水平。

如果这类智能体成功落地，团队将能够跨越各种不兼容的工具，自动化处理工单分类、退款、新员工入职、数据录入和运维手册等任务，即便只有浏览器可用也能实现。

其中的关键难点在于信任边界，因为正是那些赋予智能体实用性的“眼睛”和“手”，也使其极易被看似常规的内容所欺骗。

一个实用的心智模型是：将每个网页都视为不可信的输入，让智能体将数据与指令分离开，并要求人类对任何不可逆的操作进行审批。

参考资料：https://www.anthropic.com/news/claude-for-chrome

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！