开源多模态大模型新突破,书生·万象3.5发布,通用能力、推理能力与部署效率全面升级

机智流 2025-08-30 22:51

资讯配图

转载自书生Intern

通往通用人工智能(AGI)的探索,不仅是技术的突破,更关乎体验的革新。多模态大模型通过融合视觉与语言等多维信息,让AI能够像人一样理解世界、解决问题,为用户带来更流畅、更可信赖的交互体验。在多模态大模型领域,如何平衡复杂任务推理能力、实时部署效率与跨场景适配性,一直是行业落地应用的关键。
基于“通专融合”技术路线,上海人工智能实验室(上海AI实验室)于2025年7月发布关键科学任务性能超越Grok4的科学多模态大模型Intern-S1,8月26日书生大模型体系中的书生·万象多模态大模型也迎来重磅升级。此次实验室开源发布了书生·万象 InternVL3.5,通过创新的级联式强化学习、动态视觉分辨率路由与解耦部署架构,实现推理能力、部署效率与通用能力的全面升级。InternVL3.5在从10亿到2410亿参数的全量级版本中均刷新开源模型性能标杆,在通用多模态感知、多模态推理、文本能力等各种任务均达到领先水平,同时在图形用户界面(GUI)智能体、具身空间感知、矢量图像理解与生成等多种特色任务上取得了显著的性能提升。
技术报告链接:
https://huggingface.co/papers/2508.18265
代码开源/模型使用方法:
https://github.com/OpenGVLab/InternVL
模型地址:
https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B
在线体验链接:
https://chat.intern-ai.org.cn/

资讯配图
资讯配图


探索级联式强化学习,解锁稳定、有效、可扩展的后训练框架

传统强化学习在多模态模型中常面临“效率低”或“性能上限低”的两难——离线强化学习训练快但推理能力弱,在线强化学习效果好但计算成本高。InternVL3.5创新提出级联式强化学习(Cascade RL)框架,通过“离线预热-在线精调”两阶段流程,实现粗到精的渐进式推理能力提升。离线强化学习阶段采用混合偏好优化(MPO)算法快速让模型达到基础推理水平,为后续训练提供高质量输出样本;后续的在线强化学习阶段则基于GSPO算法,以模型自身生成的样本为基础,动态调整输出分布,无需依赖外部参考模型,在MoE大模型中训练稳定性显著提升。对比单阶段强化学习,级联式强化学习仅通过50%的GPU训练时间即可达到更优的综合性能,同时在1B到241B全参数规模中均实现稳定性能增益,例如2B模型推理得分从38.5分提升至50.7分,241B-A28B模型从60.4分提升至66.9分。

创新多模态加速部署框架,实现实际部署场景吞吐效率4倍提升

多模态模型的视觉模块往往因高分辨率输入而成为效率瓶颈。InternVL3.5通过“动态压缩 + 硬件适配”的双重优化实现突破:一方面,引入动态视觉分辨率路由(ViR),基于视觉一致性学习(ViCO)为每个图像切片动态选择 1/4 或 1/16 的压缩率,在语义密集区域(如文字、图表)保留高分辨率,在背景区域自适应压缩,从而减少 50% 视觉 tokens,在 DocVQA、OCRBench 等高分辨率任务上几乎无损性能的同时显著提升推理速度;另一方面,提出 DvD 解耦部署方案,将视觉编码器(ViT+MLP)与语言模型(LLM)分置于不同 GPU,并结合 BF16 精度特征传输与异步流水线设计,使视觉计算与语言生成能够并行执行。在 896 高分辨率输入下,38B 模型的吞吐量提升达 4.05 倍,有效解决了传统串行部署的资源阻塞问题。

实现全场景能力提升与拓展,推动模型从“理解”到“行动”的跨越

InternVL3.5在通用多模态、多模态推理、文本能力等方面实现显著提升,并强化了面向实际应用的“智能体”与“文本思考”能力,覆盖GUI交互、具身空间推理和矢量图形处理等多个关键场景。具体而言,在图像、视频问答等多模态感知任务中,241B-A28B模型以74.1的平均得分超越现有开源模型,并与商业模型GPT-5(74.0)接近;在多模态推理方面,241B-A28B模型在MMMU基准获得77.7分,较前代提升超5个百分点,位列开源榜首,数学与逻辑推理也达到高水平;在表现文本能力的AIME、GPQA及IFEval等多个基准中,模型可以取得85.3的均分,处于开源领先。GUI交互部分,模型在ScreenSpot-v2元素定位任务以92.9分超越同类模型,同时支持Windows/Ubuntu自动化操作,并在WindowsAgentArena任务大幅领先Claude-3.7-Sonnet;在具身智能体测试当中,模型表现出理解物理空间关系并规划导航路径的能力,在VSI-Bench以69.5分超过Gemini-2.5-Pro;模型对于矢量图形的理解与生成也展现了优秀的能力,在SGP-Bench以70.7分刷新开源纪录,生成任务FID值也优于GPT-4o和Claude-3.7-Sonnet,能够有效应用于网页图形生成与工程图纸解析等专业场景。

能力展示
GUI智能体
InternVL3.5可跨Windows、Mac、Ubuntu、Android等多个平台,精确识别界面元素并自主执行鼠标、键盘操作,实现恢复已删除文件、导出PDF、邮件添加附件等任务的自动化。
具身空间推理
InternVL3.5具备更强的grounding能力,可以泛化到全新的复杂大量小样本的具身场景,配合抓取算法,支持可泛化的长程物体抓取操作。
(视频由录制视角记录)
矢量图生成与编辑
基于InternVL3.5 8B 专有SVG模型,用户能够在发出自然语言指令后,让模型生成或编辑SVG 矢量图形。
1、根据文字指令生成矢量图文件
指令示例:
一个带有黄色和橙色三角形切面的几何钻石形状。
一个带有扳手和锤子图标的红色工具箱。
一个带有深色底座和屏幕的蓝色电脑显示器图标。
效果:
资讯配图

2、根据文字指令编辑矢量图文件

指令示例:
在番茄的脸上涂一滴眼泪。
输入:
资讯配图
输出:
资讯配图

通用推理能力

从数学物理考研题到国考图形推理逻辑测试,再到桌游策略推演,InternVL3.5以领先的通用推理能力实现多场景认知迁移。
示例1:数学物理考研题

问题

解答这道题

资讯配图
回答
资讯配图

(中间思考过程略)

资讯配图
资讯配图
示例2:国考图形推理逻辑测试

问题

上面大方框中的纸折叠成一个正方形盒子之后,形成的箭头的形状,应该是下面A B C D中的哪个

资讯配图
回答
资讯配图

(中间思考过程略)

资讯配图
资讯配图
示例3:桌游策略推演
问题

这是什么桌游?给出判断依据,分析场上局势,给出下一步的行动建议

资讯配图


回答


资讯配图

(中间思考过程略)

资讯配图
资讯配图
结语

书生·万象多模态大模型InternVL,作为实验室“通专融合”的书生大模型体系的重要组成部分,首创渐进式对齐技术,探索高效Scaling Law,较经典方法节约80%算力成本。自2024年1月 InternVL 1.0发布至今,书生·万象多模态大模型全网全系列下载量已经突破2300万次,凸显了在学术界与产业界的广泛影响力与认可度。从科研创新到产业落地,InternVL正通过“更强推理、更快速度、更泛应用”的技术突破,为多模态AI注入新动能——在数字办公中,GUI智能体可自动化处理 Excel 数据录入与公式计算、PPT 版式设计与内容排版等软件操作;在具身智能场景中,通过视觉感知与动作规划,辅助机器人完成家居环境、工业场景中的物理交互任务;在 AI for Science 场景中,凭借多模态协同推理能力,结合实验数据图表与领域知识,协助科研人员进行分子结构解析、材料性能预测等复杂推导。未来,随着模型能力的进一步迭代与开源生态的完善,书生·万象多模态大模型InternVL将持续推动多模态技术从“实验室”走向“生产线”,为人工智能通用化、低成本落地提供核心基座,为我国“人工智能+”行动提供坚实支撑。


-- 完 --


机智流推荐阅读

1. 聊聊大模型推理系统之 Arrow:自适应调度实现请求吞吐提升7.78倍背后的三大创新

2. 1.5 倍加速 MoE 训练:从零构建基于 Blackwell 的 MXFP8 Kernels

3. 3D/4D World Model(WM)近期发展的总结和思考

4. 港大联合月之暗面发布OpenCUA:32B模型力压GPT-4o登顶CUA榜,还提供端到端的CUA研究解决方案!



关注机智流并加入 AI 技术交流群,不仅能和来自大厂名校的 AI 开发者、爱好者一起进行技术交流,同时还有
HuggingFace每日精选论文顶会论文解读Talk分享通俗易懂的Agent知识与项目前沿AI科技资讯大模型实战教学活动等。
在「机智流」公众号后台回复下方标红内容即可加入对应群聊:
  • cc | 大模型技术交流群
  • hf | HuggingFace 高赞论文分享群
  • 具身 | 具身智能交流群
  • 硬件 | AI 硬件交流群
  • 智能体 | Agent 技术交流群

声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
开源
more
双层开源、产学结合:百度AI这场高强度的师资培训有多硬核?
「嵌入式AI硬件开源运营平台」通过工信部工业文化发展中心“AI产业创新场景应用案例”评估
首个为具身智能而生的大规模强化学习框架RLinf!清华、北京中关村学院、无问芯穹等重磅开源
快速回顾|Grok 2.5 模型现已开源,xAI 是否正在成为 OpenAI 最初设想的样子?
王兴一鸣惊人!美团首个开源大模型追平DeepSeek-V3.1
百度地图回应广告无法关闭,美团发布其首个开源大模型,纸质火车票将停用,苹果将8Plus列为复古产品,这就是今天的其他大新闻!
苹果深夜开源FastVLM,首词生成速度飙升85倍,浏览器就能跑实时视频字幕,LLaVA忌惮的对手来了?
更懂国内APP的开源智能体!感知/定位/推理/中文能力全面提升,还能自己学会操作
【AI】DeepSeek-V3.1震撼发布,全球开源编程登顶!R1/V3首度合体,训练量暴增10倍
腾讯开源视频音效生成模型!从海浪到引擎轰鸣,电影级音效AI一键生成
Copyright © 2025 成都区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号