vlms

#vlms

超越标量奖励：将推理内化到分数分布中

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

Z-Reward 是一个教师-学生框架，它将复杂推理与高效的奖励部署解耦，用于文本到图像的训练。该框架使用 27B 教师模型达到了 89.6% 的人类偏好准确率，使用 9B 学生模型达到了 88.6%，超过了先前的方法。

0 人收藏 0 人点赞

#vlms

X AI KOLs Following ↗ · 2026-06-04 缓存

Jerry Liu的团队正在CVPR 2026上展示ParseBench，这是一个针对视觉语言模型（VLM）的全面文档理解基准。该基准包含2000页真实企业文档，以及针对表格、图表和视觉定位的评估指标。

0 人收藏 0 人点赞

#vlms

arXiv cs.AI ↗ · 2026-06-03 缓存

本文介绍了一个嵌套的几何分解框架，用于分析提示如何重新组织大型语言模型和视觉-语言模型的内部表征。作者表明，仿射变换，特别是跨维度的线性混合，是解释提示引起的行为变化的关键。

0 人收藏 0 人点赞

#vlms

arXiv cs.CL ↗ · 2026-05-25 缓存

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型，实现了最先进的轨迹精度，同时相比自回归基线提供了超过12倍的吞吐量加速，解决了高保真规划与边缘部署高效推理之间的权衡。

0 人收藏 0 人点赞

#vlms

arXiv cs.AI ↗ · 2026-05-25 缓存

本文提出SpaceNum，一个统一的框架，用于评估视觉语言模型（VLMs）在空间上下文中理解数值的能力，发现当前模型在很大程度上未能将数字与空间对应起来，且常常表现出接近随机猜测的性能。

0 人收藏 0 人点赞

#vlms

Hugging Face Daily Papers ↗ · 2026-05-11 缓存

GridProbe 是一种无需训练的长视频 VLM 推理范式，它通过后验探测自适应地选择相关帧，在几乎不损失准确率的情况下实现了低于二次方的注意力计算成本。

0 人收藏 0 人点赞

#vlms

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

GeoStack 引入了一种几何框架，用于在视觉语言模型中组合独立训练的领域专家，而不会出现灾难性遗忘，实现了常数时间推理，并将几何误差降低了10倍。

0 人收藏 0 人点赞

#vlms

MIT News — Artificial Intelligence ↗ · 2026-04-29 缓存

来自麻省理工学院（MIT）、伍斯特理工学院（WPI）和 Google 的研究人员提出了 WRING，这是一种用于视觉语言模型（VLM）的新型后处理去偏方法，旨在避免在消除特定偏见时放大其他偏见的“打地鼠困境”。

0 人收藏 0 人点赞