标签
Z-Reward 是一个教师-学生框架,它将复杂推理与高效的奖励部署解耦,用于文本到图像的训练。该框架使用 27B 教师模型达到了 89.6% 的人类偏好准确率,使用 9B 学生模型达到了 88.6%,超过了先前的方法。
Jerry Liu的团队正在CVPR 2026上展示ParseBench,这是一个针对视觉语言模型(VLM)的全面文档理解基准。该基准包含2000页真实企业文档,以及针对表格、图表和视觉定位的评估指标。
本文介绍了一个嵌套的几何分解框架,用于分析提示如何重新组织大型语言模型和视觉-语言模型的内部表征。作者表明,仿射变换,特别是跨维度的线性混合,是解释提示引起的行为变化的关键。
Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型,实现了最先进的轨迹精度,同时相比自回归基线提供了超过12倍的吞吐量加速,解决了高保真规划与边缘部署高效推理之间的权衡。
本文提出SpaceNum,一个统一的框架,用于评估视觉语言模型(VLMs)在空间上下文中理解数值的能力,发现当前模型在很大程度上未能将数字与空间对应起来,且常常表现出接近随机猜测的性能。
GridProbe 是一种无需训练的长视频 VLM 推理范式,它通过后验探测自适应地选择相关帧,在几乎不损失准确率的情况下实现了低于二次方的注意力计算成本。
GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。
来自麻省理工学院(MIT)、伍斯特理工学院(WPI)和 Google 的研究人员提出了 WRING,这是一种用于视觉语言模型(VLM)的新型后处理去偏方法,旨在避免在消除特定偏见时放大其他偏见的“打地鼠困境”。