上海AI Lab、浙大EagleLab等提出RRVF:利用「验证非对称性」,只输入图片学习视觉推理

机器之心 2025-08-09 11:56
资讯配图


本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。第一作者陈杨是浙江大学硕士生,研究方向为多模态大模型和推理,本工作完成于她在上海AI Lab实习期间,实习所在团队以Agent-Ready的知识为核心,实现「提取->结构化->推理」全链路,包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab,正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。论文的共同通讯作者于智是浙江大学 EagleLab 副教授,曾任浙大 ACM 教练并执教获世界总冠军。功成身退之后,长期致力于用 AI 改善残障人群生活,在信息无障碍和人工智能领域有深厚造诣。


一个任务有多容易被 AI 解决?最终可能只取决于一个简单的问题:它的答案有多容易被验证?


这,就是验证非对称性(Asymmetry of Verification)—— 一个古老但正在重塑 AI 未来的深刻原则。它的核心思想是:对很多任务而言,验证一个解的好坏,远比从头创造一个解要容易得多


这一思想,正是近期从 OpenAI 跳槽至 Meta 的思维链(CoT)开山作者 Jason Wei 在其最新博客中提出的「验证者法则」(Verifier's Law)的基石。他断言:「所有可能被解决且易于验证的任务,都将被 AI 解决。」


为什么?因为一个任务如果具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性,就相当于为强化学习(RL)创造了一个完美的训练场。AI 可以在这个场中进行海量的、高效率的「猜测 - 检验」(guess-and-check),通过不断的迭代优化,最终逼近最优解。


而这一法则的最佳实践,已经悄然出现在了多模态领域。上海AILAB和浙江大学EagleLab的最新研究RRVF(Reasoning-Rendering-Visual-Feedback),就完美诠释了如何利用「验证的非对称性」来攻克复杂的视觉推理难题。


资讯配图



RRVF:Image2code 的「验证者法则」训练场


在传统 AI 训练中,我们依赖昂贵的「图像 - 文本」配对数据来教模型进行视觉推理。这不仅成本高昂,而且很多时候限制了 AI 的创造力,例如使用特定的 code 来训练还原 image。


资讯配图

图 1: RRVF vs 通用训练方法,只需输入图片,利用推理、渲染、反馈进行强化学习


RRVF 框架则另辟蹊径,它没有去教模型「怎么做」,而是构建了一个让模型可以自我验证的环境。RRVF 的全称是「Reasoning-Rendering-Visual-Feedback」(推理 - 渲染 - 视觉反馈),这三个词精准地概括了其核心工作流。它构建了一个端到端优化的闭环系统,让模型在「自我纠正」中学习。


资讯配图

图2: RRVF框架图


第一步:迭代式视觉推理 (Iterative Visual Reasoning)


资讯配图

图 3: 迭代视觉推理算法


第二步:视觉反馈 (Visual Feedback)


第三步:视觉裁判 (Visual Judge) & 混合奖励


这三个奖励通过加权组合(R = w_v * R_vision + w_f * R_format + w_t * R_tool),构成最终的驱动力。


最后一步:GRPO 算法优化



这个设计,完美地将一个复杂的「代码生成」任务,转化成了一个极易被验证(视觉相似度)和优化(混合奖励 + GRPO)的工程问题。


资讯配图

图 4:迭代推理的 case,模型一步步学会如何准确重建一张饼图


实验结果:验证的力量,让 7B 模型超越 72B 老师


RRVF 的实验结果,有力地证明了「验证者法则」的力量。模型基于 Qwen2.5-VL-7B 进行训练,并在图表生成(ChartMimic, Plot2Code)和网页生成(WebSight)三个数据集上进行了全面评测。


资讯配图


资讯配图


资讯配图


1. 性能碾压:SFT 学的是「模仿」,RRVF 学的是「理解」


在 ChartMimic 上,传统的监督微调(SFT)虽然有标准代码答案,但执行率只有 69.00%。而 RRVF 在没有任何代码答案的情况下,代码执行率达到了 97.83%,在其他各项指标上均有明显提升。这证明了 RRVF 真正理解了图像的结构,而非死记硬背。


2. 「学生」超越「老师」:自学习效应的惊人体现


出乎意料的是,通过 RRVF 训练的 7B 模型,最终的综合得分(64.36)不仅远超其基础模型(38.17),甚至超越了在训练中为它提供反馈和评分的、更强大的 72B 模型(47.30)。这证明 RRVF 不是简单的知识蒸馏,而是让模型在自我探索中发现了比「老师」更优的策略,实现了能力的「进化」。


3. 泛化能力:真学霸从不畏惧新考卷


为了考验模型是否真的学到了通用能力,研究者在未训练的 Plot2Code 数据集上进行了零样本测试。结果显示,SFT 模型性能急剧下降(例如执行率从 69% 暴跌至 49%),暴露出其「偏科」和「过拟合」的本质。


相比之下,RRVF 模型的执行率几乎没有衰减(例如执行率从 97.83% 稳定在 96.21%)。这强有力地证明,通过视觉反馈学习到的,是可迁移的、底层的视觉到代码的生成逻辑。


这项研究是「验证者法则」的一次响亮宣告。它告诉我们,未来 AI 发展的瓶颈,可能不在于模型本身有多大,而在于我们能否为 AI 想解决的任务,设计出足够简单、高效的「验证环境」。


一旦我们学会了如何将复杂问题转化为易于验证的问题,那么正如 Jason Wei 所预言的,一个智能的「锯齿状前沿」将会出现:在所有可被清晰验证的领域,AI 将展现出超乎想象的强大能力。


资讯配图


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:liyazhou@jiqizhixin.com


声明:内容取材于网络,仅代表作者观点,如有内容违规问题,请联系处理。 
AI
more
GPT-5发布,OpenAI放出System Card:安全、事实性、推理全面升级,迈向AGI新拐点?
AI「解码」古罗马,重现千年铭文真相!DeepMind新模型再登Nature
【AI】AIAgent放贷款,获投4.3个亿
在这场中美AI竞赛中,我们的互联网大厂正在迅速边缘化
亚马逊公布最新财报,自研AI芯片成突围关键
Gemini再揽金牌,力压大学学霸,AI数学推理时代来了!
GPT-5首秀:性能“屠榜”背后的体验分化与治理空窗【AI战略洞察】
GPT-5:让每个人都成为超级个体|AI产品榜
机械革命推出 8499 元起翼龙 16X :搭载锐龙 AI 9 H 365 和 RTX 5070/60,国补 6799.2 元起
同泰怡马泽:全国产AI大模型一体机亮相,解决企业转型“最后一公里” | 数据猿专访
Copyright © 2025 成都科技区角科技有限公司
蜀ICP备2025143415号-1
  
川公网安备51015602001305号