visual-grounding

#visual-grounding

基于证据的视频问答

Hugging Face Daily Papers ↗ · 2026-07-13 缓存

本文介绍了基于证据的视频问答（E-VQA），这是一个新任务，要求模型同时输出语义答案和精确的时空证据，如跟踪对象分割掩码序列。作者创建了一个人工验证的基准数据集和一个可扩展的训练数据集，在基线方法上显示出显著改进。

0 人收藏 0 人点赞

#visual-grounding

GUICrafter：弱监督GUI智能体，利用海量未标注截图

Hugging Face Daily Papers ↗ · 2026-06-29 缓存

GUICrafter提出了一种弱监督GUI智能体，利用海量未标注截图和两阶段课程学习框架，减少对昂贵人工标注的依赖，仅用UI-TARS系统0.1%的数据即达到了与之竞争的性能。

0 人收藏 0 人点赞

#visual-grounding

@VincentLogic: 英伟达开源了一个视觉定位模型：LocateAnything-3B 几十个小黄人密密麻麻堆在一起它一个不漏，全部框出来了这背后的技术变化比"更准"这两个字值得多说一句

X AI KOLs Timeline ↗ · 2026-06-26 缓存

英伟达开源了视觉定位模型 LocateAnything-3B，能够在密集场景中精准检测并框出所有目标对象。

0 人收藏 0 人点赞

#visual-grounding

@DataChaz：@NVIDIA 刚刚发布了 LocateAnything，通过修复一个核心瓶颈使物体检测速度提升约10倍：模型如何…

X AI KOLs Following ↗ · 2026-06-17 缓存

NVIDIA发布了LocateAnything，这是一个开源模型，通过同时预测所有坐标而非顺序预测，实现了约10倍的物体检测速度提升，在单块H100上达到12.7 FPS，并超越了320亿参数模型。

0 人收藏 0 人点赞

#visual-grounding

iVGR: 通过强化学习将视觉基础推理内化到多模态大语言模型

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

介绍 iVGR，一种强化学习框架，将视觉定位内化到多模态语言模型的文本推理中，在提升细粒度感知性能的同时，消除了推理过程中显式视觉基础的需求。

0 人收藏 0 人点赞

#visual-grounding

@ZhidingYu：感谢 NVIDIA！我将在 #CVPR2026 上于 NVIDIA 展台展示 LocateAnything：6月5日 MDT 下午4:20-4:40（周五…

X AI KOLs Following ↗ · 2026-05-28 缓存

NVIDIA 推出了 LocateAnything，这是一个统一的生成式定位与检测框架，采用并行框解码（Parallel Box Decoding）来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。

0 人收藏 0 人点赞

#visual-grounding

LocateAnything: 快速高质量的视觉-语言定位与并行框解码

Hugging Face Daily Papers ↗ · 2026-05-26 缓存

LocateAnything 提出并行框解码用于统一视觉定位与目标检测，将几何元素解码为原子单元，以提高吞吐量和定位精度，并得到包含1.38亿样本的大规模数据集的支持。

0 人收藏 0 人点赞

#visual-grounding

转码器追踪视觉语言模型中的视觉定位与幻觉现象

arXiv cs.LG ↗ · 2026-05-25 缓存

本文提出了一种以功能为中心的框架，利用转码器追踪视觉语言模型中的计算路径，展示了更强的视觉定位归因能力，并通过基于图的特征预测幻觉现象。

0 人收藏 0 人点赞

#visual-grounding

ForMaT：视觉引导的多语言PDF翻译数据集

arXiv cs.CL ↗ · 2026-05-18 缓存

本文介绍了ForMaT，一个包含15个语言对、3,956个PDF文件的平行语料库，专为视觉引导的多语言翻译而设计，保留了布局元数据，用于对布局感知的机器翻译系统进行基准测试。

0 人收藏 0 人点赞

#visual-grounding

MementoGUI：学习智能体多模态记忆控制以支持长时域GUI代理

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架，该框架使用学习到的控制器进行选择性记忆管理与检索，通过压缩的视觉与文本表示提升了长期任务的性能。

0 人收藏 0 人点赞

#visual-grounding

面向印地语系语言的视觉引导电影字幕翻译

arXiv cs.CL ↗ · 2026-05-13 缓存

本文针对资源匮乏的印地语系语言进行了一项关于视觉引导电影字幕翻译的案例研究，证明选择性视觉接地（visual grounding）在解决时间错位挑战的同时，能够有效提升翻译质量。

0 人收藏 0 人点赞

#visual-grounding

SeePhys Pro：诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应

Hugging Face Daily Papers ↗ · 2026-05-10 缓存

该论文介绍了 SeePhys Pro，这是一个用于诊断多模态强化学习（RL）中模态迁移问题的基准测试，揭示了模型在表征不变推理方面存在困难，且往往依赖残留的文本线索而非视觉证据。

0 人收藏 0 人点赞

#visual-grounding

HyperEyes：面向并行多模态搜索代理的双粒度效率感知强化学习

Hugging Face Daily Papers ↗ · 2026-05-08 缓存

HyperEyes 是一种并行多模态搜索代理，它利用双粒度强化学习来优化推理效率，与现有代理相比，在显著减少工具调用轮次的同时实现了更高的准确率。

0 人收藏 0 人点赞

visual-grounding

提交意见反馈