vlms

标签

Cards List
#vlms

超越标量奖励:将推理内化到分数分布中

Hugging Face Daily Papers · 2026-06-08 缓存

Z-Reward 是一个教师-学生框架,它将复杂推理与高效的奖励部署解耦,用于文本到图像的训练。该框架使用 27B 教师模型达到了 89.6% 的人类偏好准确率,使用 9B 学生模型达到了 88.6%,超过了先前的方法。

0 人收藏 0 人点赞
#vlms

@jerryjliu0: 我们的团队在CVPR 2026现场,想打招呼就过来吧 :)

X AI KOLs Following · 2026-06-04 缓存

Jerry Liu的团队正在CVPR 2026上展示ParseBench,这是一个针对视觉语言模型(VLM)的全面文档理解基准。该基准包含2000页真实企业文档,以及针对表格、图表和视觉定位的评估指标。

0 人收藏 0 人点赞
#vlms

分解提示如何引导行为

arXiv cs.AI · 2026-06-03 缓存

本文介绍了一个嵌套的几何分解框架,用于分析提示如何重新组织大型语言模型和视觉-语言模型的内部表征。作者表明,仿射变换,特别是跨维度的线性混合,是解释提示引起的行为变化的关键。

0 人收藏 0 人点赞
#vlms

Fast-dDrive: 用于自动驾驶的高效块扩散VLM

arXiv cs.CL · 2026-05-25 缓存

Fast-dDrive是一种用于端到端自动驾驶的块扩散VLA模型,实现了最先进的轨迹精度,同时相比自回归基线提供了超过12倍的吞吐量加速,解决了高保真规划与边缘部署高效推理之间的权衡。

0 人收藏 0 人点赞
#vlms

SPACENUM: 重新审视VLMs中的空间数值理解

arXiv cs.AI · 2026-05-25 缓存

本文提出SpaceNum,一个统一的框架,用于评估视觉语言模型(VLMs)在空间上下文中理解数值的能力,发现当前模型在很大程度上未能将数字与空间对应起来,且常常表现出接近随机猜测的性能。

0 人收藏 0 人点赞
#vlms

GridProbe:针对长视频 VLM 自适应推理时计算的后验探测方法

Hugging Face Daily Papers · 2026-05-11 缓存

GridProbe 是一种无需训练的长视频 VLM 推理范式,它通过后验探测自适应地选择相关帧,在几乎不损失准确率的情况下实现了低于二次方的注意力计算成本。

0 人收藏 0 人点赞
#vlms

GeoStack:一种用于VLMs中拟阿贝尔知识组合的框架

Hugging Face Daily Papers · 2026-05-07 缓存

GeoStack 引入了一种几何框架,用于在视觉语言模型中组合独立训练的领域专家,而不会出现灾难性遗忘,实现了常数时间推理,并将几何误差降低了10倍。

0 人收藏 0 人点赞
#vlms

解决“打地鼠困境”:一种更智能的 AI 视觉模型去偏方法

MIT News — Artificial Intelligence · 2026-04-29 缓存

来自麻省理工学院(MIT)、伍斯特理工学院(WPI)和 Google 的研究人员提出了 WRING,这是一种用于视觉语言模型(VLM)的新型后处理去偏方法,旨在避免在消除特定偏见时放大其他偏见的“打地鼠困境”。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈