字节首个“长手”的视觉模型来了！成本暴砍50%

AI应用风向标 2025-09-30 18:34

字节首个“长手”的视觉模型来了！成本暴砍50%图1 字节首个“长手”的视觉模型来了！成本暴砍50%图2

视觉大模型，学会使用工具了。

作者 | 陈骏达

编辑 | 李水青

智东西9月30日报道，今天，字节跳动火山引擎正式发布了豆包大模型1.6-vision，这是豆包大模型家族中首款具备工具调用能力的视觉深度思考模型。

在多项专业视觉理解公开测评集中，豆包大模型1.6-vision取得了较好成绩，开启工具调用模式的版本在高分辨率和复杂视觉感知测评中超越了Gemini 2.5 Pro、OpenAI o3、Qwen3-VL等前沿模型。

字节首个“长手”的视觉模型来了！成本暴砍50%图3

面向应用开发场景，豆包大模型1.6-vision支持Responses API，开发者可自主选择调用工具，减少了Agent开发过程中的代码量，提高开发效率。

豆包大模型1.6-vision还具备更高的性价比，与豆包大模型1.5-vision相比，其综合成本降低约50%。

目前，豆包大模型1.6-vision已经上线火山方舟，推理价格为0.0008元起/千输入tokens，0.002元起/千输出tokens，开发者也可通过体验链接直观感受模型性能。

字节首个“长手”的视觉模型来了！成本暴砍50%图4

体验链接：

https://www.volcengine.com/experience/ark?model=doubao-seed-1-6-vision-250815&sessionid=

豆包大模型1.6-vision支持4种工具的调用，分别为Point、Grounding、Zoom和Rotate。

字节首个“长手”的视觉模型来了！成本暴砍50%图5

官方Demo展示了上述工具在实际场景发挥的作用。

模型可以利用Zoom工具捕捉图片细节，为图像推理提供更多细节。例如，豆包大模型1.6-vision在下方案例里通过缩放工具看清了门牌号等信息，从而实现对地理位置的精确推理，判断出图片里的位置是武康路。

Grounding工具则可以用来捕捉目标，比如找到人群中与家人失散的孩子。

Point工具可以用来解答几何数学题，或是规划出行路线等。官方Demo中，豆包大模型1.6-vision结合深度思考与Point工具，绘制出了徐霞客游历中国时的轨迹。

Rotate工具能将倾斜、倒置的画面调正，从而实现准确的识别。

智东西对豆包大模型1.6-vision的能力进行了体验。我们首先上传了一个官方提供的地点识别案例，不过，豆包大模型1.6-vision并没有主动调用Zoom等工具，这或许是由于体验链接中的模型没有提供工具调用的模式。

不过，即便是未开启工具调用，豆包大模型1.6-vision依然可以识别出画面中的各种特色视觉元素，并将范围限定到武康路、复兴西路、永嘉路等区域，已经十分接近正确答案了。

字节首个“长手”的视觉模型来了！成本暴砍50%图6

豆包大模型1.6-vision提供两种模式，分别为高细节理解和低细节理解。高细节理解适用于精细特征提取和复杂图像识别，而低细节理解适用于简单分类检索、整体场景识别等任务。

字节首个“长手”的视觉模型来了！成本暴砍50%图7

开启高细节理解后，智东西让豆包大模型1.6-vision解读了一张复杂的卫星地图。豆包大模型1.6-vision不仅准确识别了图中文字，还能分别出代表干旱严重程度的颜色深浅变化，并与图中的地名关联，给出正确分析。

字节首个“长手”的视觉模型来了！成本暴砍50%图8

结语：从图像审核到AI问答

视觉大模型展现想象空间

豆包大模型1.6-vision的发布展示了视觉大模型在精细理解与工具调用上的新能力。火山引擎介绍，这一模型有望在OCR信息提取、图像审核、巡检安防、视频与图片标注、教育解题、AI搜索问答等场景发挥作用。

我们也看到，通用视觉大模型已经取代了部分传统CV模型的功能。准确的图像识别与理解能力加上大模型的世界知识储备，也为产业应用带来了更多想象空间。

字节首个“长手”的视觉模型来了！成本暴砍50%图9

字节首个“长手”的视觉模型来了！成本暴砍50%图10

声明：内容取材于网络，仅代表作者观点，如有内容违规问题，请联系处理。

more

业界首例！TI 已量产的低功耗Bluetooth® 6.0无线 MCU 通过蓝牙信道探测官方认证

电子发烧友网 1个月前

业界首例！TI 已量产的低功耗Bluetooth® 6.0无线 MCU 通过蓝牙信道探测官方认证

小米金沙江电池磁吸无线超薄充电宝拆解，采用伏达全套芯片方案

充电头网 1个月前

小米金沙江电池磁吸无线超薄充电宝拆解，采用伏达全套芯片方案

充电早报：联想140W USB-C氮化镓电源适配器拆解；传音磁吸充电宝评测；小米金沙江电池磁吸无线超薄充电宝采用伏达全套芯片方案

充电头网 1个月前

充电早报：联想140W USB-C氮化镓电源适配器拆解；传音磁吸充电宝评测；小米金沙江电池磁吸无线超薄充电宝采用伏达全套芯片方案

六款热门超薄磁吸充电宝拆解，内部无线主控芯片曝光！

充电头网 3周前

六款热门超薄磁吸充电宝拆解，内部无线主控芯片曝光！

无线传输技术：脑机接口从实验室到家庭场景的关键跳板

脑机接口领域知识探索 1个月前

无线传输技术：脑机接口从实验室到家庭场景的关键跳板

无线快充技术，国内首个统一标准发布

电子发烧友网 1个月前

无线快充技术，国内首个统一标准发布

报名倒计时！TI免费培训：ADAS|AIDSP|精密电机控制|多协议无线等[上海杭州北京西安]

EETOP 1个月前

报名倒计时！TI免费培训：ADAS|AIDSP|精密电机控制|多协议无线等[上海杭州北京西安]

【免费试用】一款可远程控制的“无线急停辅助系统”

控制工程中文版 2个月前

【免费试用】一款可远程控制的“无线急停辅助系统”

Omdia: 全球5G固定无线接入用户数量将在2030年达到1.5亿

Omdia 1个月前

Omdia: 全球5G固定无线接入用户数量将在2030年达到1.5亿

【北京西安】TI嵌入式实验室免费培训：AI加速ADAS、AI DSP、多协议无线、精密电机控制等 | 即将开讲，预报从速！）

EETOP 2个月前

【北京西安】TI嵌入式实验室免费培训：AI加速ADAS、AI DSP、多协议无线、精密电机控制等 | 即将开讲，预报从速！）

Copyright © 2025 成都区角科技有限公司

蜀ICP备2025143415号-1

川公网安备51015602001305号