字节首个“长手”的视觉模型来了!成本暴砍50%

AI应用风向标 2025-09-30 18:34

字节首个“长手”的视觉模型来了!成本暴砍50%图1字节首个“长手”的视觉模型来了!成本暴砍50%图2

视觉大模型,学会使用工具了。
作者 |  陈骏达
编辑 |  李水青
智东西9月30日报道,今天,字节跳动火山引擎正式发布了豆包大模型1.6-vision,这是豆包大模型家族中首款具备工具调用能力的视觉深度思考模型。
在多项专业视觉理解公开测评集中,豆包大模型1.6-vision取得了较好成绩,开启工具调用模式的版本在高分辨率和复杂视觉感知测评中超越了Gemini 2.5 Pro、OpenAI o3、Qwen3-VL等前沿模型。
字节首个“长手”的视觉模型来了!成本暴砍50%图3
面向应用开发场景,豆包大模型1.6-vision支持Responses API,开发者可自主选择调用工具,减少了Agent开发过程中的代码量,提高开发效率。
豆包大模型1.6-vision还具备更高的性价比,与豆包大模型1.5-vision相比,其综合成本降低约50%。
目前,豆包大模型1.6-vision已经上线火山方舟,推理价格为0.0008元起/千输入tokens,0.002元起/千输出tokens,开发者也可通过体验链接直观感受模型性能。
字节首个“长手”的视觉模型来了!成本暴砍50%图4
体验链接:
https://www.volcengine.com/experience/ark?model=doubao-seed-1-6-vision-250815&sessionid=
豆包大模型1.6-vision支持4种工具的调用,分别为Point、Grounding、Zoom和Rotate。
字节首个“长手”的视觉模型来了!成本暴砍50%图5
官方Demo展示了上述工具在实际场景发挥的作用。
模型可以利用Zoom工具捕捉图片细节,为图像推理提供更多细节。例如,豆包大模型1.6-vision在下方案例里通过缩放工具看清了门牌号等信息,从而实现对地理位置的精确推理,判断出图片里的位置是武康路。
Grounding工具则可以用来捕捉目标,比如找到人群中与家人失散的孩子。
Point工具可以用来解答几何数学题,或是规划出行路线等。官方Demo中,豆包大模型1.6-vision结合深度思考与Point工具,绘制出了徐霞客游历中国时的轨迹。
Rotate工具能将倾斜、倒置的画面调正,从而实现准确的识别。
智东西对豆包大模型1.6-vision的能力进行了体验。我们首先上传了一个官方提供的地点识别案例,不过,豆包大模型1.6-vision并没有主动调用Zoom等工具,这或许是由于体验链接中的模型没有提供工具调用的模式。
不过,即便是未开启工具调用,豆包大模型1.6-vision依然可以识别出画面中的各种特色视觉元素,并将范围限定到武康路、复兴西路、永嘉路等区域,已经十分接近正确答案了。
字节首个“长手”的视觉模型来了!成本暴砍50%图6
豆包大模型1.6-vision提供两种模式,分别为高细节理解和低细节理解。高细节理解适用于精细特征提取和复杂图像识别,而低细节理解适用于简单分类检索、整体场景识别等任务。
字节首个“长手”的视觉模型来了!成本暴砍50%图7
开启高细节理解后,智东西让豆包大模型1.6-vision解读了一张复杂的卫星地图。豆包大模型1.6-vision不仅准确识别了图中文字,还能分别出代表干旱严重程度的颜色深浅变化,并与图中的地名关联,给出正确分析。
字节首个“长手”的视觉模型来了!成本暴砍50%图8



结语:从图像审核到AI问答
视觉大模型展现想象空间


豆包大模型1.6-vision的发布展示了视觉大模型在精细理解与工具调用上的新能力。火山引擎介绍,这一模型有望在OCR信息提取、图像审核、巡检安防、视频与图片标注、教育解题、AI搜索问答等场景发挥作用。
我们也看到,通用视觉大模型已经取代了部分传统CV模型的功能。准确的图像识别与理解能力加上大模型的世界知识储备,也为产业应用带来了更多想象空间。
字节首个“长手”的视觉模型来了!成本暴砍50%图9

字节首个“长手”的视觉模型来了!成本暴砍50%图10


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号