标签
介绍 iVGR,一种强化学习框架,将视觉定位内化到多模态语言模型的文本推理中,在提升细粒度感知性能的同时,消除了推理过程中显式视觉基础的需求。
NVIDIA 推出了 LocateAnything,这是一个统一的生成式定位与检测框架,采用并行框解码(Parallel Box Decoding)来提升解码吞吐量和定位精度。该工作将在 CVPR 2026 上进行展示。
LocateAnything 提出并行框解码用于统一视觉定位与目标检测,将几何元素解码为原子单元,以提高吞吐量和定位精度,并得到包含1.38亿样本的大规模数据集的支持。
本文提出了一种以功能为中心的框架,利用转码器追踪视觉语言模型中的计算路径,展示了更强的视觉定位归因能力,并通过基于图的特征预测幻觉现象。
本文介绍了ForMaT,一个包含15个语言对、3,956个PDF文件的平行语料库,专为视觉引导的多语言翻译而设计,保留了布局元数据,用于对布局感知的机器翻译系统进行基准测试。
MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架,该框架使用学习到的控制器进行选择性记忆管理与检索,通过压缩的视觉与文本表示提升了长期任务的性能。
本文针对资源匮乏的印地语系语言进行了一项关于视觉引导电影字幕翻译的案例研究,证明选择性视觉接地(visual grounding)在解决时间错位挑战的同时,能够有效提升翻译质量。
该论文介绍了 SeePhys Pro,这是一个用于诊断多模态强化学习(RL)中模态迁移问题的基准测试,揭示了模型在表征不变推理方面存在困难,且往往依赖残留的文本线索而非视觉证据。
HyperEyes 是一种并行多模态搜索代理,它利用双粒度强化学习来优化推理效率,与现有代理相比,在显著减少工具调用轮次的同时实现了更高的准确率。