vision-language-models

#vision-language-models

大型视觉-语言模型在注意力机制中迷失

arXiv cs.AI ↗ · 2天前缓存

这篇研究论文利用信息论分析了大型视觉-语言模型（LVLM）的内部机制，揭示了注意力机制可能存在冗余，而前馈网络才是推动语义创新的关键。作者证明，将学习到的注意力权重替换为随机值仍可获得相当的性能，这表明当前模型“在注意力中迷失”。

0 人收藏 0 人点赞

#vision-language-models

SPARK：基于知识图谱的不对称奖励自博弈

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 SPARK，这是一种自博弈强化学习框架，利用从科学文献中衍生出的知识图谱来提升视觉-语言模型的关系推理能力。

0 人收藏 0 人点赞

#vision-language-models

PRISM：用于顺序决策的感知与推理交织方法

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 PRISM，这是一个通过动态问答流程整合视觉-语言模型和大语言模型的框架，旨在提升具身 AI 任务中的顺序决策能力。

0 人收藏 0 人点赞

#vision-language-models

揭示多模态知识编辑中的实体身份混淆问题

arXiv cs.CL ↗ · 2天前缓存

本文在多模态知识编辑中发现了一种称为实体身份混淆的故障模式，即模型错误地绑定图像-实体关系。文章提出了EC-Bench用于诊断该问题，并探讨了缓解策略以实现更可靠的编辑。

0 人收藏 0 人点赞

#vision-language-models

用一个 Python 字典将多模态推理性能提升超 10%

Hacker News Top ↗ · 3天前缓存

Modal 的工程师对 SGLang 调度器在多模态 VLM 工作负载下进行了性能分析，发现将开销较大的 GPU 显存记录操作替换为一个简单的 Python 字典缓存后，吞吐量提升了 16%，延迟降低了超过 13%。该修复已合并至 SGLang v0.5.10。

0 人收藏 0 人点赞

#vision-language-models

# 面向大语言模型/视觉语言模型强化学习的鲜度感知优先经验回放来源：[https://arxiv.org/html/2604.16918](https://arxiv.org/html/2604.16918) Weiyu Ma1 Yongcheng Zeng2 Yan Song3 Xinyu Cui2 Jian Zhao4 Xuhui Liu1 Mohamed Elhoseiny1 1 阿卜杜拉国王科技大学 (KAUST) 2 中国科学院自动化研究所 (CASIA) 3 伦敦大学学院计算机科学系人工智能中心 4 中关村人工智能研究院 weiyu\.

0 人收藏 0 人点赞

#vision-language-models

SynopticBench：评估视觉语言模型生成未来天气预报讨论的能力

arXiv cs.CL ↗ · 2026-04-21 缓存

本文介绍了SynopticBench，这是一个包含130万份以上天气预报讨论及其对应气象图像的数据集；同时提出了SPACE，一个用于评估VLM生成天气预报质量的全新评估框架。

0 人收藏 0 人点赞

#vision-language-models

@jerryjliu0：我们当前的核心使命是利用 AI 解决文档 OCR 问题。我们所有的产品线，从商业产品（LlamaParse）到……

X AI KOLs Following ↗ · 2026-04-21 缓存

LlamaIndex 对其官网进行了全面改版，并重申了以 AI 驱动文档 OCR 的核心使命，旗下产品涵盖商业产品 LlamaParse 以及开源工具 LiteParse 和 ParseBench。LlamaParse 采用基于 VLM 的智能文档理解技术，可大规模处理复杂版式、表格、图表及手写文字。

0 人收藏 0 人点赞

#vision-language-models

GIST: 通过智能语义拓扑的多模态知识提取与空间定位

arXiv cs.AI ↗ · 2026-04-20 缓存

GIST 是一个多模态知识提取管道，将移动点云数据转换为语义注释的导航拓扑结构，用于密集环境，支持语义搜索、定位和自然语言路由，在真实场景评估中实现 80% 的导航成功率。

0 人收藏 0 人点赞

#vision-language-models

视觉-语言模型中提示诱导幻觉的机制研究

arXiv cs.CL ↗ · 2026-04-20 缓存

本文通过机制分析研究视觉-语言模型中的提示诱导幻觉，识别出导致模型偏向文本提示而忽视视觉证据的特定注意力头。作者证明了删除这些PIH头可以在无需额外训练的情况下减少至少40%的幻觉，揭示了该故障模式背后的模型特定机制。

0 人收藏 0 人点赞

#vision-language-models

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

arXiv cs.CL ↗ · 2026-04-20 缓存

本文介绍了CrossMath，一个受控多模态推理基准，揭示了当前视觉语言模型的一个关键局限：它们主要在文本空间进行推理，而非真正的视觉接地推理，视觉输入往往会降低性能相比仅文本基线。作者提出了微调方法来减轻这种模态差距并改进多模态推理能力。

0 人收藏 0 人点赞

#vision-language-models

TTL：使用预训练视觉-语言模型的测试时文本学习框架用于OOD检测

arXiv cs.CL ↗ · 2026-04-20 缓存

TTL引入了一个测试时文本学习框架，用于使用CLIP等预训练视觉-语言模型进行OOD检测，该框架能够从未标记的测试流中动态学习OOD语义，无需外部OOD标签。该方法使用伪标记样本和OOD知识净化策略来提高检测的鲁棒性，应对多样化和不断演变的OOD分布。

0 人收藏 0 人点赞

#vision-language-models

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

arXiv cs.CL ↗ · 2026-04-20 缓存

HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准，包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR，一个可泛化的路由器，通过自适应超图表示改进 LVLM 性能。

0 人收藏 0 人点赞

#vision-language-models

通过分阶段自奖励缓解多模态幻觉

Hugging Face Daily Papers ↗ · 2026-04-20 缓存

PSRD 框架通过分阶段自奖励解码和蒸馏轻量奖励模型，无需额外监督即可将 LVLM 的多模态幻觉降低一半。

0 人收藏 0 人点赞

#vision-language-models

背景也重要：用可迁移攻击攻破医学视觉语言模型

Hugging Face Daily Papers ↗ · 2026-04-19 缓存

MedFocusLeak 首次提出针对医学视觉语言模型的可迁移黑盒对抗攻击，通过不可察觉的背景扰动在六种成像模态上误导临床诊断。

0 人收藏 0 人点赞

#vision-language-models

EasyVideoR1：让视频理解的强化学习更简单

Hugging Face Daily Papers ↗ · 2026-04-18 缓存

# 论文页面 - EasyVideoR1：让视频理解的强化学习更简单来源：[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架，可提升训练吞吐量，支持多种视频任务，并实现图像-视频联合训练，在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers

0 人收藏 0 人点赞

#vision-language-models