上海AI Lab、浙大EagleLab等提出RRVF：利用「验证非对称性」，只输入图片学习视觉推理

本本研究由上海AI Lab前沿探索中心石博天老师带领的数据前沿团队、浙江大学EagleLab和上海创智学院等单位联合完成。第一作者陈杨是浙江大学硕士生，研究方向为多模态大模型和推理，本工作完成于她在上海AI Lab实习期间，实习所在团队以Agent-Ready的知识为核心，实现「提取->结构化->推理」全链路，包括基于MLLM的文档理解、基于异质图网络的多模态知识表征、自主终身学习智能体等。论文共同第一作者、通讯作者沈宇帆就职于上海AI Lab，正在全身心探索下一代 MLLM 学习范式和高效的多模态智能体。论文的共同通讯作者于智是浙江大学 EagleLab 副教授，曾任浙大 ACM 教练并执教获世界总冠军。功成身退之后，长期致力于用 AI 改善残障人群生活，在信息无障碍和人工智能领域有深厚造诣。

一个任务有多容易被 AI 解决？最终可能只取决于一个简单的问题：它的答案有多容易被验证？

这，就是验证非对称性（Asymmetry of Verification）—— 一个古老但正在重塑 AI 未来的深刻原则。它的核心思想是：对很多任务而言，验证一个解的好坏，远比从头创造一个解要容易得多。

这一思想，正是近期从 OpenAI 跳槽至 Meta 的思维链（CoT）开山作者 Jason Wei 在其最新博客中提出的「验证者法则」（Verifier's Law）的基石。他断言：「所有可能被解决且易于验证的任务，都将被 AI 解决。」

为什么？因为一个任务如果具备客观真理、可快速验证、可规模化验证、低噪音、连续奖励等特性，就相当于为强化学习（RL）创造了一个完美的训练场。AI 可以在这个场中进行海量的、高效率的「猜测 - 检验」（guess-and-check），通过不断的迭代优化，最终逼近最优解。

而这一法则的最佳实践，已经悄然出现在了多模态领域。上海AILAB和浙江大学EagleLab的最新研究RRVF（Reasoning-Rendering-Visual-Feedback），就完美诠释了如何利用「验证的非对称性」来攻克复杂的视觉推理难题。

论文标题：Learning Only with Images: Visual Reinforcement Learning with Reasoning,Rendering,and Visual Feedback
论文地址：https://arxiv.org/pdf/2507.20766

RRVF：Image2code 的「验证者法则」训练场

在传统 AI 训练中，我们依赖昂贵的「图像 - 文本」配对数据来教模型进行视觉推理。这不仅成本高昂，而且很多时候限制了 AI 的创造力，例如使用特定的 code 来训练还原 image。

图 1: RRVF vs 通用训练方法，只需输入图片，利用推理、渲染、反馈进行强化学习

RRVF 框架则另辟蹊径，它没有去教模型「怎么做」，而是构建了一个让模型可以自我验证的环境。RRVF 的全称是「Reasoning-Rendering-Visual-Feedback」（推理 - 渲染 - 视觉反馈），这三个词精准地概括了其核心工作流。它构建了一个端到端优化的闭环系统，让模型在「自我纠正」中学习。

图2: RRVF框架图

第一步：迭代式视觉推理 (Iterative Visual Reasoning)

面对一张目标图像（如数据图表），它会进行迭代式多轮思考。在每一轮，模型都会在 < think > 中先写下自己的思考过程，然后调用外部工具进行渲染和获取反馈，在后续轮次中根据反馈修正自己的代码。

图 3: 迭代视觉推理算法

第二步：视觉反馈 (Visual Feedback)

外部工具（如 Matplotlib 或 Playwright 浏览器）执行代码后，会渲染生成图片。此时，一个更强大的「视觉裁判」模型（论文中使用了 72B 的 Qwen2.5-VL）会介入，对比渲染图和原图，并生成定性的、结构化的自然语言反馈，例如：「图表类型正确，但颜色不匹配」、「网页布局基本正确，但缺少了一个按钮」。这些反馈会作为新的输入，指导模型进行下一轮的代码修正。

第三步：视觉裁判 (Visual Judge) & 混合奖励

在整个迭代过程结束后，模型会输出最终的代码。此时，「视觉裁判」会再次出场，但这次它扮演的是「法官」角色，给出一个定量的视觉相似度分数 R_vision。
但仅仅有视觉分是不够的。为了让模型学得更好，研究者设计了混合奖励函数 (Hybrid Reward Design)：

视觉相似度奖励 (R_vision)：核心奖励，分数越高奖励越大。
格式正确性奖励 (R_format)：代码能否跑通？思考和工具调用的格式对不对？如果出错，直接给予惩罚。
工具使用奖励 (R_tool)：为了鼓励模型探索和使用反馈循环，每次成功的工具调用都会获得少量奖励，直到模型表现得足够好（视觉分超过 0.95）或达到最大次数。

这三个奖励通过加权组合（R = w_v * R_vision + w_f * R_format + w_t * R_tool），构成最终的驱动力。

最后一步：GRPO 算法优化

有了精确的奖励信号，如何高效地更新模型？RRVF 采用了 GRPO（Group Relative Policy Optimization）算法。相比传统的 PPO，GRPO 更高效，它不需要一个独立的价值函数，而是通过对一组（论文中是 8 个）候选答案进行比较和打分，直接优化策略。

这个设计，完美地将一个复杂的「代码生成」任务，转化成了一个极易被验证（视觉相似度）和优化（混合奖励 + GRPO）的工程问题。

资讯配图

图 4：迭代推理的 case，模型一步步学会如何准确重建一张饼图

实验结果：验证的力量，让 7B 模型超越 72B 老师

RRVF 的实验结果，有力地证明了「验证者法则」的力量。模型基于 Qwen2.5-VL-7B 进行训练，并在图表生成（ChartMimic, Plot2Code）和网页生成（WebSight）三个数据集上进行了全面评测。

资讯配图

1. 性能碾压：SFT 学的是「模仿」，RRVF 学的是「理解」

在 ChartMimic 上，传统的监督微调（SFT）虽然有标准代码答案，但执行率只有 69.00%。而 RRVF 在没有任何代码答案的情况下，代码执行率达到了 97.83%，在其他各项指标上均有明显提升。这证明了 RRVF 真正理解了图像的结构，而非死记硬背。

2. 「学生」超越「老师」：自学习效应的惊人体现

出乎意料的是，通过 RRVF 训练的 7B 模型，最终的综合得分（64.36）不仅远超其基础模型（38.17），甚至超越了在训练中为它提供反馈和评分的、更强大的 72B 模型（47.30）。这证明 RRVF 不是简单的知识蒸馏，而是让模型在自我探索中发现了比「老师」更优的策略，实现了能力的「进化」。

3. 泛化能力：真学霸从不畏惧新考卷

为了考验模型是否真的学到了通用能力，研究者在未训练的 Plot2Code 数据集上进行了零样本测试。结果显示，SFT 模型性能急剧下降（例如执行率从 69% 暴跌至 49%），暴露出其「偏科」和「过拟合」的本质。

相比之下，RRVF 模型的执行率几乎没有衰减（例如执行率从 97.83% 稳定在 96.21%）。这强有力地证明，通过视觉反馈学习到的，是可迁移的、底层的视觉到代码的生成逻辑。

这项研究是「验证者法则」的一次响亮宣告。它告诉我们，未来 AI 发展的瓶颈，可能不在于模型本身有多大，而在于我们能否为 AI 想解决的任务，设计出足够简单、高效的「验证环境」。

一旦我们学会了如何将复杂问题转化为易于验证的问题，那么正如 Jason Wei 所预言的，一个智能的「锯齿状前沿」将会出现：在所有可被清晰验证的领域，AI 将展现出超乎想象的强大能力。

转载请联系本公众号获得授权

投稿或寻求报道：liyazhou@jiqizhixin.com