真是想游过去叫 Anthropic 别卷了,又又又又又发新功能了: Advisor 策略加入 Claude 的 API 工具箱,当 Sonnet 或 Haiku 在运行过程中遇到困难时,它会咨询 Opus 获取方案,然后继续运行,所有操作均在一次 API 请求中完成。 老实说做法在开发者社区里一点都不新鲜,很多(贫穷的)开发者在自己的工作流里就是这么干的,用便宜模型处理简单任务,只在需要深度推理时才调用贵模型,只不过需要手动切换模型。现在 Anthropic 把这个「穷人版」工作流产品化了,变成了一行代码就能开启的官方功能。 「实习生」干活,「总监」指点 在常规的 AI agent 架构里,通常的做法是让最强的模型当指挥,把任务拆解成小块,分配给便宜的模型执行。强模型在上面管,弱模型在下面干,是一个自上而下的结构。 Anthropic 的 advisor 却反过来,弱模型当主力,强模型当顾问。 具体来说,Sonnet(或更便宜的 Haiku)作为「执行者」全程跑任务——调用工具、读取结果、迭代处理。当它跑到一个自己拿不准的决策点时——比如代码架构的分叉路口,用方案 A 还是方案 B?它不会硬猜,而是主动发起一次「举手提问」的 tool call,把当前上下文和具体问题发给 Opu Opus 作为「顾问」看完后,不会直接参与执行,不写代码也不修改逻辑,只返回一个简短的建议(通常 400-700 个 token):「用方案 A,因为 XYZ,注意 Z 的部分。」Sonnet 收到建议,继续执行。整个过程对用户不可见。 换个容易理解的比方:这就像实习生干活干到不会了,举手问一下总监。总监提点个方向,实习生继续干。总监按总监的工资算(Opus 价格),但只说了几句话,所以没多少钱;实习生跑全程(Sonnet/Haiku 价格),但单价不高,所以总成本很低。 Anthropic 自己的测试数据显示: - Sonnet + Opus advisor 在 SWE-bench Multilingual 上比 Sonnet 单独高 2.7 个百分点,同时成本降低 11.9%- Haiku + Opus advisor 在 BrowseComp 上得分 41.2%,是 Haiku 单独(19.7%)的两倍多,但成本只有 Sonnet 的15%- Bolt 的 CEO 评价:「复杂任务上架构决策明显更好,简单任务完全没有额外开销」- Eve Legal 的机器学习工程师:「在结构化文档提取任务上,Haiku 通过 advisor 动态升级智能,达到了前沿模型质量,成本降低 5 倍」 就算是实习生也不能笨 这个模式有一个容易被忽略的前提:实习生必须足够聪明,能准确判断自己什么时候不行。 这本质上是 advisor 的「顶梁柱」,是整个功能可以运作的前提。一个真的很差的模型,压根不知道自己不知道,还可能自信满满地选了错误的方案,无知者无畏。这种情况就不会触发 advisor 调用,比直接用差模型跑全程还危险:由于对话只发生在模型间,不会推送到用户面前,你以为 Opus 掌握着大局不用操心,实际上它从来没被叫到过。 这就是为什么 Anthropic 的 advisor tool 目前只支持 Sonnet 和 Haiku 作为执行者,而不是任意模型。这两个模型在 Claude 家族内部经过了充分的训练,知道什么时候该举手、什么时候可以自己搞定。 这个策略的好处是显而易见的:降低用户门槛,不需要懂工程就能用上最佳实践。但它也有一个微妙的副作用:省了,但没有完全省。 当开发者自己搭建模型路由时,他们可以自由组合任何公司的模型:用 DeepSeek 做筛选,用 GPT-5 做推理,用 Gemini 做摘要,哪家便宜用哪家。这是一个开放的、完全自主设计的、跨平台的省钱策略。 但 advisor tool 只支持 Claude 家族内部的模型,执行者必须是「嫡出」的 Sonnet 或 Haiku,顾问必须是 Opus。你不能用 GPT 当顾问,也不能用 Gemini 当执行。 理论上任何模型都可以通过 tool call 调用另一个模型,A 社这样做完全出于产品策略。 那反正都不是原创思路,我自己工程一下做个类似的,组合不同模型,可行吗?Advisor tool 是一种模型之间有来回交互的场景,假设你希望 DeepSeek 主力,遇到难题时把上下文发给 Claude 问建议,Claude 返回后,DeepSeek 继续执行,可能会出几个问题: - 输出格式:Claude 返回建议时的结构化方式(比如用 XML 标签包裹计划步骤),DeepSeek 不一定能准确解析和遵循。嫡系模型之间这些格式是对齐的。 -「语言」差异:每个模型有自己偏好的思考和表达方式。Opus 给 Sonnet 的建议,用的措辞和逻辑结构是 Sonnet 最容易理解和执行的。Claude 给 DeepSeek 的建议,DeepSeek 能读懂,但执行的精准度会打折扣——就像一个英语母语者给一个英语很好但非母语的人下指令,大部分情况没问题,但在微妙的地方会有理解偏差。 - tool use 格式不兼容:不同厂商的 function calling 格式有细微差异。Claude 的 tool use 和 DeepSeek 的 tool use 在 JSON schema、参数传递方式上不完全一样。跨厂商做 agent 链路就会这样,中间的格式转换是个坑。 用官方原生的自然最好,不过,一旦你的工作流加入 advisor,同时就意味着你被锁在了 Claude 生态里。这是一个精妙的商业设计,Anthropic 并没有阻止你省钱,它显然还帮你省钱,但它把「省钱」这个动作本身用作了加固平台黏性。 那性价比还真的高吗?毕竟,DeepSeek 再怎么说花的也是人民币,Claude 烧的可是美金啊。 社区先做到了,Anthropic 只是加了个按钮 Advisor 的思路并不新鲜,它更像是 Anthropic 把一个已经存在的实践包装成了官方产品。 开发者社区里最常见的省钱技巧就是「模型路由」(model routing):用便宜模型处理简单任务(分类、摘要、格式化),只在需要深度推理时才调用贵模型,有大量开源项目实现这个模式。 现在我们常用的很多功能,都曾经是开发者社区手动组装过的:现在各家 AI 几乎标配的「Project」项目空间,曾经是靠开发者在 API 层面手动拼接 system prompt + 文档上下文,所有内容只围绕一个项目;Artifacts 的雏形也是开发者在用 Claude/GPT/Gemini 生成 HTML/React 组件,然后手动粘贴到预览器运行,现在这个功能也可以在各家的终端实现。 最近的一次,则是 Anthropic 推出 Dispatch(手机遥控桌面)和 Channels(IM 集成),这就是 Claude 自己的 OpenClaw,然后转头卸磨杀驴,禁了 OpenClaw。 从产品策略来说,刚发布的 Advisor 策略,反映了在算力吃紧的情况下,性价比不仅是用户的追求,也是公司的痛点,是 AI 定价模式的一个更大趋势。 常规的 AI 定价很简单,选一个模型,按 token 付费,要最顶的质量就用 Opus,要便宜就用 Haiku,选定了就是那个价。本质上是在卖「算力时间」,你买了多少个 token 的处理能力。 Advisor 模式变得更灵活,你不再选择一个固定的智能级别,而是让系统根据任务复杂度动态分配智能,厂商也可以更灵活的处理分配算力资源。 对于最终用户来说,这是好事。不用为一个只是 2 分的任务,付需要深度推理的任务付 100%的 Opus 价格。但对于 AI 公司来说,这也意味着一个新的竞争维度,不再只是单一维度的卷参数、卷价格,卷的是智能性价比。 文 | Selina 编辑 | 李超凡