400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头

新智元报道

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图2

【新智元导读】400TPS极速狂飙，开启生产级高效率Flash模型范式，直接一刀打穿Agent底价，把全球开发者惊艳到了。

世界上最遥远的距离，不是AI看不懂你的需求，而是你的经费，根本撑不到AI把活干完。

现在，我们进入了「Agent烧钱时代」：模型调用的每一次呼吸，烧的都是真金白银。

但今天，游戏规则变了。

就在刚刚，国产多模态卷王「阶跃星辰」狠狠掀翻了全球大模型的牌桌——Step 3.7 Flash震撼发布。

400TPS 的极速狂飙，以1/9单任务成本实现Claude Opus 4.6 97%性能。它以破局之势向业内宣告——

这不是一次简单的模型迭代，而是一场专为Agent烧钱时代准备的终极降维打击！

Agent时代的模型

应该是什么样子

Agent时代的模型应该是什么样子？

以前，随手丢给模型一张飞机驾驶舱的截图，几百个仪表、按钮、开关密密麻麻，然后只敲几个字：「如何起飞？」

换作过去的多模态模型，它会很礼貌地回答你：「这是一个飞机驾驶舱，包含油门、姿态仪……」——然后就没了下文。

它能描述世界，却进不去世界。

而换成 Step 3.7 Flash，画风完全变了：它自己框选出驾驶舱区域，认出每一个关键仪表的含义，理清「先做什么、再做什么」的操作顺序，最后牵着一只黄色的小鼠标，一步步演示给你看——什么时候推油门、什么时候收起落架。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图4

它交出的，是一份照着就能做的起飞清单。

这一步跨越看着不起眼，本质却是 AI 从「理解信息」走向「执行任务」的分水岭。

多模态的终点从来不是看懂世界，而是帮人在复杂系统里动手干活。

而这，恰恰就是「Agent 时代」最朴素的定义——AI 不再是聊天框里的嘴替，而是真实工作流里的手替。

竞争已经换了赛道

这两年，我们一直在被「谁家模型分更高」刷屏。

但当 Agent 真正从 Demo 走进生产线，画风立刻变得惨烈起来：模型调用次数暴涨、延迟被无限放大、token 像流水一样烧、搜索一轮接一轮、多步骤任务越拖越长……

于是，一个真正要命的问题浮出水面：谁能用更低的延迟、更低的成本、更高的吞吐，把更多真实任务从头干到尾？

这，正是 Flash 模型的主场。

阶跃星辰这家公司，业内一直叫它「多模态卷王」。三个月前，它的 Step 3.5 Flash 一上线就登顶 OpenRouter Trending，一个月内做到 OpenClaw 调用量全球第一，就此在开发者心里立住了「最强 Agent 基座」的招牌。

今天的 Step 3.7 Flash，是这条路的延续，也是一次加码——离应用场景最近的 Agentic 基座模型。

才一发布，它就在海外开发者中获得了极高的口碑。

有开发者表示，Step 3.7 Flash真的太好用了！

本来他是用Gemini 3.5 Flash写代码，切回Step 3.7 Flash之后，它一下子就找出7个以上的bug。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图6

有的开发者发现，Step 3.7 Flash这个模型使用起来的速度快得离谱。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图7

Step 3.7 Flash还支持了mlx-vlm——在128GB内存的 Apple Silicon 设备上，4-bit 量化版本最高可以运行32K上下文长度。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图8

有人甚至表示，试用完Step 3.7 Flash后，自己第一次认真考虑把它为其他模型的替代方案。得益于MoE，它的速度非常快，在Agent任务上，它非常敏锐，同时又继承了Gemma 4 31B那种出色的写作能力和创造力。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图9

实测：模型「进了现场」

口说无凭，先上三个亲手就能复现的场景。

第一个，每个打工人的噩梦——报销。把手机里随手拍的 12 张发票一股脑丢给它：角度歪的、拍糊的，餐饮、电子、差旅全混在一起。

Step 3.7 Flash 不光能把每张票上的金额、税额、商户名、消费场景一一认出来，还能判断哪些字段才是报销真正要填的，自动整理成一张统一的表格，再一键导出 Excel 或 CSV。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图11

它跑通的是「识别 → 理解 → 整理 → 导出」的完整链条，对应的正是企业里那些重复、低效却天天都在发生的行政财务活儿——报销、录入、对账、归档。

这，才是一个 Agent 该干的活。

第二个，在 Blender 里删个方块。你对着一张 Blender 界面截图说「怎么删除这个方块」，模型会自动框选界面，读懂大纲列表、工具栏和当前所处的编辑模式，再给出具体到每一步的操作路径。

Blender 是出了名的专业、信息密度爆炸的 3D 软件——能在这种环境里给出可执行的操作建议，意味着它已经够格进驻专业工具，去当一名「3D 建模助手」。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图12

第三个，看懂一个 App 的设计。框选一个应用界面，问它「这些设计有什么有趣之处」，它不只是识别页面元素，而是能对界面里不同帖子的设计逻辑、信息组织方式做出专业点评。

模型不止「认得页面」，更开始读懂内容与设计背后的那套语言。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图13

更狠的是一个训练时压根没教过的「涌现」行为：写完一段前端代码后，模型会自己切到 GUI 里去测试刚生成的页面，看渲染效果、点点交互按钮，再根据看到的结果回头改自己的代码。

写代码 → 看界面 → 改代码，这套组合拳没人教过它，它自己悟出来了。

这，才是「进了现场」该有的样子。

下面，是一个智慧城市综合管理平台界面。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图14

上传给Step 3.7 Flash后，它给出了非常细致的分析。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图15

第四个，高速 Deep Research。Step 3.7 Flash能够围绕单一主题进行多源信息检索、对比与结构化总结，生成简洁的 research brief 或决策摘要。

比如，给它的就一句话：「围绕 2026 人形机器人量产，给我一页能拍板的决策摘要。」

它交回来的，是一份开头就敢下判断、中间用一张表把特斯拉、Figure、宇树、智元、1X、Agility 六家的量产进度、估值、成本、风险全摆齐，结尾给三条带时间节点的可执行关注点的页面。

而且每个数字后面都缀着来源和月份。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图16

这正是 Deep Research 该有的样子：搜索不再是「问一句答一句」的外挂，而是「发现信息不够 → 主动去查 → 判断可不可信 → 再决定下一步」的完整闭环。

第五个，GUI 理解与 Computer Use。

给它一张剪映截图，一句「把这段导出成 1080P、30 帧」，它没急着报步骤，而是先把当前界面看了个透：右上角那个蓝色「导出」按钮在哪、图标是个向上的箭头——位置、颜色、形状全给你定位到位，照着找绝不会点错。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图17

真正见功力的是两个细节。

一是它瞥了一眼右侧「草稿参数」，发现当前色彩格式其实是 1080i（隔行扫描），主动提醒你导出时要手动改成 1080P（逐行扫描）——这是新手十有八九会忽略、事后才发现画面有问题的坑；二是它注意到时间线上不止这一段，专门点出「导出的是整个项目，不是单独这一个片段」，还顺手教了想单独导出该怎么办。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图18

它是真把屏幕上的信息当线索在读——既看得懂宏观布局，又抠得出 1080i、整轨导出这些容易翻车的细节，更像一个经验老到、还会提前替你把坑填上的剪辑师傅，而不是只会念操作手册的说明书。

这种「读屏 + 指路 + 防呆」的本事，正是 GUI 理解往「嵌进 App 里的操作引导 Agent」走的底气。

最后，我们还给它来了一个AGI路线图压力测试。

要求是构建一张2026-2030年的AGI发展图谱，节点包括OpenAI、Anthropic、Google DeepMind、xAI、Meta、DeepSeek。

要求预测出每家公司未来模型的发布顺序、各家的模型能力，标记住关键的技术拐点，还要判断哪家公司最有可能率先到达AGI。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图19

模型很快给出了详尽的AGI发展路线图，还预测了各家模型的AGI能力雏形。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图20

多、快、好、省，逐个拆

这个模型的亮点，概括起来就是「多快好省」。下面，四个字，我们一个一个拆开看。

多——多模态是 Agent 的「入场券」

过去，多模态被当成模型的加分项：能识图、能做视觉问答，仅此而已。

但在真实的 Agent 工作流里，它是标配。因为现实中的任务，有一大半压根不是规规矩矩的结构化文本，而是藏在 GUI、截图、文档和网页里。

模型连「看」都看不见，又谈何「干」？

Step 3.7 Flash 内建了完整的视觉理解能力（196B + 1.8B ViT）。更妙的是它的取舍：对一个只激活 11B 的小模型来说，把海量视觉常识硬塞进权重里，太奢侈了。

于是阶跃只在权重里保留最核心的推理引擎，把「感知边界」和「世界知识」外推到推理阶段——用 Flash 的「快」，去换推理时的「多看一眼、多查一次」。

效果很硬：在 V*（Python 工具）上拿到 95.3，比肩 Kimi K2.6（96.9）、Gemini 3 Flash（96.3）这些更大的块头；再配上 Visual Search，视觉识别能力直接对标五倍于自己参数量的旗舰。

作为一款一个 11B 激活的模型，这思路，本身就很 Agent。

快——400 TPS，给 Agent 装上快进键

Step 3.7 Flash 用的是稀疏 MoE 架构，总参数 196B + 1.8B（ViT），单次推理却只激活 11B，单请求生成速度最高能到 400 Tokens/秒。

「快」在 Agent 时代不是体验上的加分项，而是能力本身。

道理很朴素：同样一段时间，模型跑得越快，就能多看几眼、多查几遍、多想几轮——迭代次数越多，结果越准。

在动辄几十轮工具调用的高频 Agent、Coding Agent、Search Agent 场景里，延迟每压低一点，整条任务链的体验和成功率就往上抬一截。

比如，一句指令下去，40 个不同身份的虚拟「评测员」被同时拉起，各自从自己的视角去判断同一个产品问题，再实时把它们对 5 个 MVP 方向的偏好汇总成结论。

说白了，就是把一个 Agent 拆成一支几十人的「专家团」并行开工——人多、嘴杂、还快，最后给出的结论自然比一个脑袋拍板更稳、也更说得清道理。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图24

慢，才是 Agent 最贵的成本。

好——不偏科的「天选打工人」

Agent 能力的本质，从来不是某一项指标登峰造极，而是多种能力在同一条任务链上谁都不掉链子。

很多任务的失败，不是因为模型「算错了」，而是因为链路在某个环节断了。

所以阶跃把 Step 3.7 Flash 往「六边形战士」的方向调：多模态、搜索、工具调用、代码能力一体化打磨，强调的是协同稳定，而不是单点上的峰值。

看一组它和上一代的对比，一个迭代周期的进步相当夸张——GDPval 从 28.0 飙到 45.8，Toolathlon 从 33.3 升到 49.5，ClawEval-1.1 从 43.6 直接干到 67.1。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图26

ClawEval 衡量的，恰恰是模型「真正闭环完成复杂任务」的本事：理解任务 → 拆解规划 → 在对的时机调对的工具 → 出错了能自救 → 把多步骤的活儿彻底做完。

在这张榜上，67.1 的成绩已经反超 DeepSeek V4 Flash（57.8）和 Kimi K2.6（62.3），逼近 Claude Opus 4.6（70.8）。

再加上 τ²-bench Telecom 在低、中、高三档难度下通过率全部 98% 以上——比起那些「单项学霸」，它更像办公室里老板最信得过的那种员工：执行稳、流程清、不掉链子。

省——真正的杀手锏

如果说前面都是铺垫，这一段才是高潮。

400 tokens/秒！阶跃Step 3.7 Flash，把Agent任务成本打到Claude零头图28

Step 3.7 Flash 借鉴了「Advisor（顾问）策略」：让小模型当执行官，全程握着方向盘——调工具、读结果、自己迭代；只在少数几个「拿不准」的关键拐点上（比如做规划、或者连续失败后的自救），才去请教一个更大的「顾问模型」。

结果是：开启 Advisor 模式后，Step 3.7 Flash 用大约九分之一的单任务成本，做到了 Claude Opus 4.6 编码能力的 97%——每个 Agentic 任务 0.19 美元，对手则是 1.76 美元。

同样的活儿，一个收你两毛，一个收你接近两块。这笔账，任何一个要把 Agent 铺到生产线上、按月烧 token 的团队，都算得明明白白。

更省心的还有部署。

Step 3.7 Flash 全面开源，云端、数据中心、本地随便挑：一台 128GB 统一内存的 Mac Studio、AMD Ryzen AI Max+ 395，乃至英伟达 DGX Station 上都能跑；推理侧 vLLM、SGLang、llama.cpp 也全都支持。

对 Claude Code、KiloCode、OpenClaw、Hermes Agent 这些主流 Agent 框架，以及 MCP / Skills 协议，它同样做了兼容适配——接进去，几乎不用重写工作流。

换句话说，不管你用的是哪套脚手架，它都能稳定发挥。

多模态 + 极致效率

这里必须强调：Step 3.7 Flash 不是「全榜屠夫」。

摊开 benchmark，在 Terminal-Bench 2.1（59.5）、Toolathlon（49.5）这些项目上，它不仅落后于 GPT 5.5、Claude Opus 4.7 这些前沿闭源旗舰，也被参数量更大的 DeepSeek V4 Flash（284B）反超。

论「单点最强」，它确实够不着天花板。但这恰恰是它最聪明的地方——它压根就没打算去比谁更聪明。

它赌的是另一条曲线：在「同样的钱、同样的时间，到底能完成多少真实任务」这条性价比前沿上，做到极致。

多模态 + 极致效率的组合，再叠加 Advisor 模式把成本压到对手的零头，让它稳稳占住了「离应用最近」的那一档。

在 Agent 真正大规模上生产线的当下，市场要的往往不是分数最高的那个，而是那个能被持续调用、稳定运行、成本可控的。

而这套打法，对阶跃自己的现实意义也很直接。

这家成立才三年的公司，如今被业内认为要争第一家在「Agent 经济」时代上市的中国大模型公司。

它的底气，来自一组可验证的增长数字：终端 Agent API 调用量连续三个季度增长近 170%，模型在手机端装机量超过 4200 万台，日均服务近 2000 万人次。

而 Step 3.7 Flash，就是把这套「高效智能」叙事钉得更深的又一锤。

Flash 不再是「便宜平替」

很长一段时间里，Flash 模型在大家心里就是「旗舰的青春版」——能力打个折，图的是便宜和快。

但 Agent 时代，正在重写这个定义。

当 Agent 开始钻进企业流程、开发链路、知识工作和自动化系统，模型要同时满足一长串苛刻条件：够快、够稳、够便宜、够可靠，还得够容易被开发者集成和部署。

这时候你会发现，那个「又快、又省、又不掉链子」的 Flash，反而成了生产级 Agent 的地基，而不是替补。

下一阶段的模型竞争，比的不再是峰值智能，而是可规模化的高效智能。

最强的，不一定是分数最高的那个；但一定是那个能被千万次调用、稳定执行任务、还不让你心疼钱包的。

曾经，Flash系列被视作旗舰模型的「平替」；但 Step 3.7 Flash 的出现，彻底扭转了这一认知。

在智能的巅峰对决之外，它开辟了另一条战线：当Scaling Law不可避免地撞上Economic Law，谁能用九分之一的成本输出稳定、不掉链子的生产力，谁就掌握了让Agent真正爆发的密码。

阶跃星辰这一手王炸，不仅把价格打穿，更是把Agent商业化的底层逻辑彻底跑通。

最聪明的模型负责仰望星空，而最务实的 Flash，正在接管整个世界。