仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了

智东西 2025-10-15 12:36
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图1

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图2仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图3

小尺寸,核心能力不减配,击败谷歌和OpenAI同级选手。
作者 |  李水青
编辑 |  心缘
智东西10月15日报道,今日,阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,两个尺寸均提供Instruct与Thinking版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型。
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图4

▲阿里千问团队公告截图(图源:X平台)

这两个新版本模型实现了以下关键目标:
1、资源门槛更低:尺寸缩减显著降低VRAM的占用。现在,开发者可以在更广泛的硬件设备上部署和运行模型。
2、核心能力不减配:在缩减尺寸的同时,其完整保留了Qwen3-VL的全部核心功能
3、基准性能优秀:在STEM、VQA、OCR、视频理解及Agent任务等多个权威基准上,其表现不仅超越了Gemini 2.5 Flash Lite和GPT-5 Nano,在许多场景下甚至能与阿里半年前的旗舰模型Qwen2.5-VL-72B相媲美
如下图所示,在多模态性能方面,Qwen3-VL-8B Instruct在MIABench、OCRBench、SUNRGBD、ERQA、VideoMMMU、ScreenSpot等30项权威基准测评中取得SOTA(行业最佳)成绩,超越了Gemini 2.5 Flash Lite、GPT-5 Nano以及Qwen2.5-VL-72B等顶尖模型。
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图5

▲Qwen3-VL-8B Instruct与Qwen3-VL-4B Instruct基准测评情况(图源:Qwen)

Qwen3-VL-4B Instruct也展现出优秀的多模态性能,以更少的参数量,在STEM、VQA、OCR、视频理解及Agent任务等测评中,能与Gemini 2.5 Flash Lite、GPT-5 Nano对打。
在纯文本表现上,如下图所示,Qwen3-VL-8B Instruct和Qwen3-VL-4B Instruct也相比Qwen3-4B Instruct-2507和Qwen3-8B Non-Thinking有整体提高。
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图6

▲Qwen3-VL-8B Instruct与Qwen3-VL-4B Instruct基准测评情况(图源:Qwen)

在多模态性能方面,Qwen3-VL-8B Thinking取得了MathVision、MMStar、HallusionBench、MM-MT-Bench、CountBench等23项权威基准测评的SOTA,超越Gemini 2.5 Flash Lite、GPT-5 Nano高版本以及其他同等级顶尖开源模型。Qwen3-VL-4B Thinking同样表现出“以小敌大”的成绩。
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图7

▲Qwen3-VL-8B Thinking与Qwen3-VL-4B Thinking基准测评情况(图源:Qwen)

在纯文本表现上,Qwen3-VL-8B Thinking和Qwen3-VL-4B Thinking相比于Qwen3-4BThinking-2507和Qwen3-8B Thinking有整体提高。
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图8

▲Qwen3-VL-8B Thinking与Qwen3-VL-4B Thinking基准测评情况(图源:Qwen)

该模型一经发布,就在外网引起了不少开发者关注。不少人对此表示“一直在等这个”,有人称:“终于,我在16GB的Mac上可以用了。”也有不少人开始催更Qwen3-Max及其他更多版本模型了。
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图9
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图10

▲外网用户对新版本Qwen3-VL的评论(图源:X平台)

自9月24日阿里开源Qwen3-VL系列以来,作为Qwen系列中最强的视觉语言模型,该模型在全球AI开源社区中快速收获认可。()
在9月底的Chatbot Arena子榜单Vision Arena中,Qwen3-VL位居第二,是视觉理解领域中的全球开源冠军;同时,Qwen3-VL还斩获纯文本赛道(Text Arena)的开源第一(全球第8),成为首个揽获纯文本和视觉两大领域同时开源第一的大模型。 

仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图11

▲在Vision Arena中Qwen3-VL位居第二(图源:Qwen)

并且,Qwen3-VL还在全球知名的大模型API三方聚合平台OpenRouter图像处理榜单上以48%的市场份额跃升至全球第一。
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图12

▲Qwen3-VL在OpenRouter图像处理榜单上表现(图源:OpenRouter)

近期,阿里还推出Qwen3-VL Cookbook(使用指南),涵盖图像思维、计算机使用Agent、多模态变成、3D定位、空间推理、视频理解等多种多模态用例,助用户高效上手和深度应用。
模型地址:
https://modelscope.cn/collections/Qwen3-VL-5c7a94c8cb144b
体验地址:
chat.qwen.ai (在模型列表选择Qwen3-VL系列模型)
Cookbook地址:
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks
来源:X平台、Hugging Face、通义千问Qwen公众号
仅4B!阿里千问最强视觉模型新开源,网友:我的16GB Mac有救了图13



声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
北大开源3D-R1:释放具身导航中的3D场景理解能力
开源硬件模组及物联网设备研发中心建设项目可行性研究报告
Nature点赞!哈佛、MIT全新开源框架ToolUniverse实现「可编程的科学协作」
混元3D开源端到端全景深度估计器,代码+精选全景数据已上线,在线可玩
NeurIPS'25开源 | 首个免对齐框架SIU3R!无需2D特征对齐,0.1秒同时实现场景理解与三维重建!
NeurIPS 25 | 中大&UC Merced等开源RAPID Hand,重新定义多指灵巧手数据采集
一款免费开源工具让设计脑机接口比搭建乐高还要简单
【投融资】开源数据库Supabase估值冲50亿美元,ARR升至7000万,AI编程热潮助推
抖音&LV-NUS开源多模态新模,以小博大刷新SOTA,8B推理比肩GPT-4o
国产游戏理解模型刷新SOTA,对话逗逗AI CEO:开源模型+行业数据是突破关键
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号