视觉推理强化学习新突破:Vero框架如何用单阶段方案突破开源模型性能瓶颈

2024年初,笔者关注到大模型视觉推理领域的一个怪现象:GPT-4V、Gemini在各类视觉任务上表现惊艳,但学术界能用的开源方案却始终停留在"单项冠军"水平——做数学题厉害,做图表就拉胯;换个任务场景,模型直接抓瞎。这种割裂让人困惑:难道视觉推理真的是大厂的专属游戏? 视觉推理强化学习新突破:Vero框架如何用单阶段方案突破开源模型性能瓶颈 IT技术

困境溯源:从单任务到泛化的鸿沟

问题的根源藏在视觉推理任务的本质差异里。图表QA需要数值提取和比较,定位任务需要空间扫描和绑定,开放描述需要语义理解和生成。不同任务放大的是完全不同的推理策略,硬把它们塞进同一个训练框架,模型就会出现"越学越乱、越学越崩"的灾难性遗忘。 视觉推理强化学习新突破:Vero框架如何用单阶段方案突破开源模型性能瓶颈 IT技术

技术破局:Vero的三板斧

普林斯顿刘壮团队交出的答卷是Vero框架。核心思路清晰:数据要广、奖励要准、训练要简。具体拆解为三个关键设计。 视觉推理强化学习新突破:Vero框架如何用单阶段方案突破开源模型性能瓶颈 IT技术

第一,Vero-600K数据集。59个数据源精选60万样本,覆盖图表OCR、STEM、空间动作、知识识别、定位计数、描述遵循六大类别。关键是"广泛且均衡"——单任务RL训练出的模型泛化能力惨不忍睹,在某类别上的提升反而会损害其他能力。唯有混合训练才能让模型学到通用的视觉推理模式。 视觉推理强化学习新突破:Vero框架如何用单阶段方案突破开源模型性能瓶颈 IT技术

第二,任务路由奖励机制。不同任务答案格式差异巨大,传统方案用统一标准打分必然失准。Vero的解决方案是自动化多路验证:选择题看选项对错,数学题做数值校验,开放描述则引入另一个大模型当裁判,按任务类型自动路由到对应验证器。 视觉推理强化学习新突破:Vero框架如何用单阶段方案突破开源模型性能瓶颈 IT技术

第三,单阶段强化学习。闭源模型的秘诀是海量私有"思考"数据,Vero证明了另一条路:高质量数据过滤+均衡任务混合+精确路由奖励,仅靠单阶段RL就能激发基础模型的通用视觉推理能力。 视觉推理强化学习新突破:Vero框架如何用单阶段方案突破开源模型性能瓶颈 IT技术

实测验证:23项超越Thinking模型

没有使用任何私有思考数据,Vero训练的模型在30个基准测试中23项超越Qwen3-VL-8B-Thinking。消融实验进一步验证核心结论:广泛的数据覆盖是视觉推理RLScaling的主要驱动力,而非私有数据壁垒。

所有代码、数据、模型权重均已开源。这个意义怎么强调都不为过——学术团队第一次证明,只要有合适的人才和投入,学术界也能追平工业界的部分成就。