开源多模态大模型新突破，书生·万象3.5发布，通用能力、推理能力与部署效率全面升级

资讯配图

转载自书生Intern

通往通用人工智能（AGI）的探索，不仅是技术的突破，更关乎体验的革新。多模态大模型通过融合视觉与语言等多维信息，让AI能够像人一样理解世界、解决问题，为用户带来更流畅、更可信赖的交互体验。在多模态大模型领域，如何平衡复杂任务推理能力、实时部署效率与跨场景适配性，一直是行业落地应用的关键。

基于“通专融合”技术路线，上海人工智能实验室（上海AI实验室）于2025年7月发布关键科学任务性能超越Grok4的科学多模态大模型Intern-S1，8月26日书生大模型体系中的书生·万象多模态大模型也迎来重磅升级。此次实验室开源发布了书生·万象 InternVL3.5，通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构，实现推理能力、部署效率与通用能力的全面升级。InternVL3.5在从10亿到2410亿参数的全量级版本中均刷新开源模型性能标杆，在通用多模态感知、多模态推理、文本能力等各种任务均达到领先水平，同时在图形用户界面（GUI）智能体、具身空间感知、矢量图像理解与生成等多种特色任务上取得了显著的性能提升。

技术报告链接：

https://huggingface.co/papers/2508.18265

代码开源/模型使用方法：

https://github.com/OpenGVLab/InternVL

模型地址：

https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B

在线体验链接：

https://chat.intern-ai.org.cn/

提供10亿至2410亿参数共九种尺寸模型，覆盖不同资源需求场景，包含稠密模型和专家混合模型（MoE），首个支持GPT-OSS语言模型基座的开源多模态大模型；
旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获得开源模型最高分77.7分，多模态通用感知基准MMStar和OCRBench分别取得77.9分和90.7分，超越GPT-5（75.7分/80.7分），文本推理基准AIME25和MMLU-Pro分别达到75.6和81.3分，全面领先现有开源多模态大模型；
依托级联式强化学习框架（Cascade RL），全系列模型推理性能相比上一代平均提升16.0分。其中InternVL3.5-241B-A28B综合推理性能达到66.9分，超越上一代模型的54.6分以及Claude-3.7-Sonnet的53.9分，在数学推理、逻辑推理等复杂任务中表现突出；
借助创新的视觉分辨率路由（ViR）与解耦部署框架（DvD），38B模型在896分辨率下的响应速度大幅提升，单次推理延迟由369 ms缩短至91 ms（提升约4倍）；与此同时，轻量化的InternVL3.5-Flash在将视觉序列长度减少 50% 的情况下，仍能保持接近 100% 的性能水平；
加强GUI智能体、具身智能体、SVG图形理解与生成等智能体核心能力，在ScreenSpot GUI定位（92.9分）、VSI-Bench空间推理（69.5分）、SGP-Bench矢量图理解（70.6分）等任务中超越主流开源模型。

探索级联式强化学习，解锁稳定、有效、可扩展的后训练框架

传统强化学习在多模态模型中常面临“效率低”或“性能上限低”的两难——离线强化学习训练快但推理能力弱，在线强化学习效果好但计算成本高。InternVL3.5创新提出级联式强化学习（Cascade RL）框架，通过“离线预热-在线精调”两阶段流程，实现粗到精的渐进式推理能力提升。离线强化学习阶段采用混合偏好优化（MPO）算法快速让模型达到基础推理水平，为后续训练提供高质量输出样本；后续的在线强化学习阶段则基于GSPO算法，以模型自身生成的样本为基础，动态调整输出分布，无需依赖外部参考模型，在MoE大模型中训练稳定性显著提升。对比单阶段强化学习，级联式强化学习仅通过50%的GPU训练时间即可达到更优的综合性能，同时在1B到241B全参数规模中均实现稳定性能增益，例如2B模型推理得分从38.5分提升至50.7分，241B-A28B模型从60.4分提升至66.9分。

创新多模态加速部署框架，实现实际部署场景吞吐效率4倍提升

多模态模型的视觉模块往往因高分辨率输入而成为效率瓶颈。InternVL3.5通过“动态压缩 + 硬件适配”的双重优化实现突破：一方面，引入动态视觉分辨率路由（ViR），基于视觉一致性学习（ViCO）为每个图像切片动态选择 1/4 或 1/16 的压缩率，在语义密集区域（如文字、图表）保留高分辨率，在背景区域自适应压缩，从而减少 50% 视觉 tokens，在 DocVQA、OCRBench 等高分辨率任务上几乎无损性能的同时显著提升推理速度；另一方面，提出 DvD 解耦部署方案，将视觉编码器（ViT+MLP）与语言模型（LLM）分置于不同 GPU，并结合 BF16 精度特征传输与异步流水线设计，使视觉计算与语言生成能够并行执行。在 896 高分辨率输入下，38B 模型的吞吐量提升达 4.05 倍，有效解决了传统串行部署的资源阻塞问题。

实现全场景能力提升与拓展，推动模型从“理解”到“行动”的跨越

InternVL3.5在通用多模态、多模态推理、文本能力等方面实现显著提升，并强化了面向实际应用的“智能体”与“文本思考”能力，覆盖GUI交互、具身空间推理和矢量图形处理等多个关键场景。具体而言，在图像、视频问答等多模态感知任务中，241B-A28B模型以74.1的平均得分超越现有开源模型，并与商业模型GPT-5（74.0）接近；在多模态推理方面，241B-A28B模型在MMMU基准获得77.7分，较前代提升超5个百分点，位列开源榜首，数学与逻辑推理也达到高水平；在表现文本能力的AIME、GPQA及IFEval等多个基准中，模型可以取得85.3的均分，处于开源领先。GUI交互部分，模型在ScreenSpot-v2元素定位任务以92.9分超越同类模型，同时支持Windows/Ubuntu自动化操作，并在WindowsAgentArena任务大幅领先Claude-3.7-Sonnet；在具身智能体测试当中，模型表现出理解物理空间关系并规划导航路径的能力，在VSI-Bench以69.5分超过Gemini-2.5-Pro；模型对于矢量图形的理解与生成也展现了优秀的能力，在SGP-Bench以70.7分刷新开源纪录，生成任务FID值也优于GPT-4o和Claude-3.7-Sonnet，能够有效应用于网页图形生成与工程图纸解析等专业场景。

能力展示

GUI智能体

InternVL3.5可跨Windows、Mac、Ubuntu、Android等多个平台，精确识别界面元素并自主执行鼠标、键盘操作，实现恢复已删除文件、导出PDF、邮件添加附件等任务的自动化。

具身空间推理

InternVL3.5具备更强的grounding能力，可以泛化到全新的复杂大量小样本的具身场景，配合抓取算法，支持可泛化的长程物体抓取操作。

（视频由录制视角记录）

矢量图生成与编辑

基于InternVL3.5 8B 专有SVG模型，用户能够在发出自然语言指令后，让模型生成或编辑SVG 矢量图形。

1、根据文字指令生成矢量图文件

指令示例：

一个带有黄色和橙色三角形切面的几何钻石形状。

一个带有扳手和锤子图标的红色工具箱。

一个带有深色底座和屏幕的蓝色电脑显示器图标。

效果：

2、根据文字指令编辑矢量图文件

指令示例：

在番茄的脸上涂一滴眼泪。

输入：

输出：

通用推理能力

从数学物理考研题到国考图形推理逻辑测试，再到桌游策略推演，InternVL3.5以领先的通用推理能力实现多场景认知迁移。

示例1：数学物理考研题

问题

解答这道题

回答

(中间思考过程略)

示例2：国考图形推理逻辑测试

问题

上面大方框中的纸折叠成一个正方形盒子之后，形成的箭头的形状，应该是下面A B C D中的哪个

回答

(中间思考过程略)

示例3：桌游策略推演

问题

这是什么桌游？给出判断依据，分析场上局势，给出下一步的行动建议

回答

(中间思考过程略)

结语

书生·万象多模态大模型InternVL，作为实验室“通专融合”的书生大模型体系的重要组成部分，首创渐进式对齐技术，探索高效Scaling Law，较经典方法节约80%算力成本。自2024年1月 InternVL 1.0发布至今，书生·万象多模态大模型全网全系列下载量已经突破2300万次，凸显了在学术界与产业界的广泛影响力与认可度。从科研创新到产业落地，InternVL正通过“更强推理、更快速度、更泛应用”的技术突破，为多模态AI注入新动能——在数字办公中，GUI智能体可自动化处理 Excel 数据录入与公式计算、PPT 版式设计与内容排版等软件操作；在具身智能场景中，通过视觉感知与动作规划，辅助机器人完成家居环境、工业场景中的物理交互任务；在 AI for Science 场景中，凭借多模态协同推理能力，结合实验数据图表与领域知识，协助科研人员进行分子结构解析、材料性能预测等复杂推导。未来，随着模型能力的进一步迭代与开源生态的完善，书生·万象多模态大模型InternVL将持续推动多模态技术从“实验室”走向“生产线”，为人工智能通用化、低成本落地提供核心基座，为我国“人工智能+”行动提供坚实支撑。

-- 完 --

2. 1.5 倍加速 MoE 训练：从零构建基于 Blackwell 的 MXFP8 Kernels‍‍

3. 3D/4D World Model（WM）近期发展的总结和思考

4. 港大联合月之暗面发布OpenCUA：32B模型力压GPT-4o登顶CUA榜，还提供端到端的CUA研究解决方案！

关注机智流并加入 AI 技术交流群，不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流，同时还有HuggingFace每日精选论文与顶会论文解读、Talk分享、通俗易懂的Agent知识与项目、前沿AI科技资讯、大模型实战教学活动等。

在「机智流」公众号后台回复下方标红内容即可加入对应群聊：

cc | 大模型技术交流群
hf | HuggingFace 高赞论文分享群
具身 | 具身智能交流群
硬件 | AI 硬件交流群
智能体 | Agent 技术交流群