标签
本文介绍了MathVis-Fine,一个用于多模态数学推理中细粒度视觉依赖建模的框架,同时包含一个新数据集和一个两阶段渐进式训练范式,该范式根据每个样本固有的视觉依赖水平平衡答案正确性奖励和视觉接地奖励。