标签
这篇研究论文利用信息论分析了大型视觉-语言模型(LVLM)的内部机制,揭示了注意力机制可能存在冗余,而前馈网络才是推动语义创新的关键。作者证明,将学习到的注意力权重替换为随机值仍可获得相当的性能,这表明当前模型“在注意力中迷失”。
本文介绍了 SPARK,这是一种自博弈强化学习框架,利用从科学文献中衍生出的知识图谱来提升视觉-语言模型的关系推理能力。
本文介绍了 PRISM,这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架,旨在提升具身 AI 任务中的顺序决策能力。
本文在多模态知识编辑中发现了一种称为实体身份混淆的故障模式,即模型错误地绑定图像-实体关系。文章提出了EC-Bench用于诊断该问题,并探讨了缓解策略以实现更可靠的编辑。
Modal 的工程师对 SGLang 调度器在多模态 VLM 工作负载下进行了性能分析,发现将开销较大的 GPU 显存记录操作替换为一个简单的 Python 字典缓存后,吞吐量提升了 16%,延迟降低了超过 13%。该修复已合并至 SGLang v0.5.10。
# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放 来源:[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918) Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1 1 阿卜杜拉国王科技大学 (KAUST) 2 中国科学院自动化研究所 (CASIA) 3 伦敦大学学院计算机科学系人工智能中心 4 中关村人工智能研究院 weiyu\.
本文介绍了SynopticBench,这是一个包含130万份以上天气预报讨论及其对应气象图像的数据集;同时提出了SPACE,一个用于评估VLM生成天气预报质量的全新评估框架。
LlamaIndex 对其官网进行了全面改版,并重申了以 AI 驱动文档 OCR 的核心使命,旗下产品涵盖商业产品 LlamaParse 以及开源工具 LiteParse 和 ParseBench。LlamaParse 采用基于 VLM 的智能文档理解技术,可大规模处理复杂版式、表格、图表及手写文字。
GIST 是一个多模态知识提取管道,将移动点云数据转换为语义注释的导航拓扑结构,用于密集环境,支持语义搜索、定位和自然语言路由,在真实场景评估中实现 80% 的导航成功率。
本文通过机制分析研究视觉-语言模型中的提示诱导幻觉,识别出导致模型偏向文本提示而忽视视觉证据的特定注意力头。作者证明了删除这些PIH头可以在无需额外训练的情况下减少至少40%的幻觉,揭示了该故障模式背后的模型特定机制。
本文介绍了CrossMath,一个受控多模态推理基准,揭示了当前视觉语言模型的一个关键局限:它们主要在文本空间进行推理,而非真正的视觉接地推理,视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。
TTL引入了一个测试时文本学习框架,用于使用CLIP等预训练视觉-语言模型进行OOD检测,该框架能够从未标记的测试流中动态学习OOD语义,无需外部OOD标签。该方法使用伪标记样本和OOD知识净化策略来提高检测的鲁棒性,应对多样化和不断演变的OOD分布。
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。
PSRD 框架通过分阶段自奖励解码和蒸馏轻量奖励模型,无需额外监督即可将 LVLM 的多模态幻觉降低一半。
MedFocusLeak 首次提出针对医学视觉语言模型的可迁移黑盒对抗攻击,通过不可察觉的背景扰动在六种成像模态上误导临床诊断。
# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers
Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。
RadAgent是一种使用工具的AI代理,通过可解释的逐步推理生成胸部CT报告,将临床准确率相对提升36.4%,并实现37%的忠实度——这是现有3D视觉语言模型所不具备的能力。该系统提供完全可检查的推理轨迹,使临床医生能够验证和优化诊断输出。
提出 Slipform 训练框架,借助词汇具体性筛选更困难的负样本,并引入基于边界的 Cement 损失,显著提升视觉-语言模型的组合推理能力。
本文介绍了人类区域适应性,这是一种优化视觉语言模型以适应特定区域情境同时保持全局泛化能力的范式。作者提出了GG-EZ,一种利用区域数据过滤和模型合并的适应方法,在三种视觉语言架构上为东南亚地区展示了5-15%的文化相关性提升。