字节跳动推出Mini-o3：视觉推理比肩OpenAI o3

近日，由字节跳动、香港大学团队联合开发的Mini-o3模型正式上线。这个号称Open AI o3 视觉推理平替的视觉语言模型（VLM），在训练限制轮数仅6轮的情况下，能在测试阶段将思考轮数扩展到数十轮。

Mini-o3的核心创新为Visual Probe挑战性问题数据集构建、迭代数据收集管道以及超轮次掩码策略，支持深度优先搜索等多样化推理模式。测试时，交互轮次可扩展至 32 轮以上，准确率也会随着轮次增加显著提升。

资讯配图 — 图源：https://arxiv.org/pdf/2509.07969

目前，Mini-o3在 VisualProbe、VBench、HR-Bench、MME-Realworld 等基准上取得了 7B 量级的最佳成绩。训练代码、模型权重以及包含 4,500 条数据的 Visual Probe 数据集也已开源。

训练数据收集

Mini-o3通过提出一种有效的多模态智能体训练方案来推进交互深度和推理模式。该智能体支持多轮图像工具使用，从而提高了视觉基础任务的适应性和推理多样性。

训练过程包括两个阶段：

监督微调（SFT）：在数千个涉及图像工具使用的多轮轨迹（即冷启动数据）上对模型进行微调，使模型生成具有多样化和鲁棒推理模式的有效轨迹。
具有可验证奖励的强化学习（RLVR）：使用可验证的、语义感知的奖励，采用外部 LLM 作为评判者来计算奖励信号。总共设置 6 个交互轮次和 32K 上下文长度的上限。

团队构建了一个具有挑战性的视觉搜索数据集——Visual Probe 数据集。它包含用于训练的 4,000个视觉问答集和用于测试的 500个问答集。 VisualProbe 的特点是：

小目标；
大量干扰物；
高分辨率图像

为了生成高质量、多样化的多轮轨迹，Mini-o3只保留最终答案正确的轨迹。遵循此过程，团队从 6 个示例中收集了大约 6,000 条冷启动轨迹。

超轮次掩码策略

为了增加每个环节中可行的轮次数，团队将每张图像的最大像素数减少至 200 万。这种简单的调整允许在相同的上下文预算内容纳更多轮次，提高了长视野问题的解决率。

为了防止模型陷入“提前回答”策略，团队还提出了一种超轮次掩码技术，其目标是避免对“未完成”的回答进行惩罚。

这项技术削减了之前“屏蔽”未完成回答的损失，鼓励模型继续探索。

值得注意的是，尽管在训练期间采用了相对较小的翻转轮次上限，但测试时间轨迹可以延伸至数十轮，准确率也会随着轮次增加而提升。因此，轮次掩码对于实现测试时间在交互翻转次数方面的扩展优势至关重要。

实践结果

本研究核心发现，尽管Mini-o3（蓝线）训练时仅设定6轮上限，但在测试中，随着交互轮次上限从4增至32轮，其在VisualProbe-Hard数据集上的准确率从38%持续升至48%。这表明模型真正学会了“思考”，且思考越充分，效果越好。相比之下，未采用Over-turn Masking策略的模型（红线）在6轮后性能便停止增长。