large-vision-language-models

#large-vision-language-models

MODE-RAG：流形异常诊断与基于能量的检索增强生成评估

arXiv cs.CL ↗ · 昨天缓存

介绍了MODE-RAG，一个多智能体系统，利用变分自由能和蒙特卡洛树搜索动态门控干预，以减轻多模态检索增强生成系统中的幻觉，同时提供了ModeVent评估数据集。

0 人收藏 0 人点赞

#large-vision-language-models

arXiv cs.CL ↗ · 3天前缓存

本文分析了大型视觉语言模型中多模态可验证奖励强化学习（RLVR）中的思考-答案不一致性，并提出CORA方法，该方法引入了一致性奖励模型和混合奖励优势拆分，以提高忠实性和任务性能。

0 人收藏 0 人点赞

#large-vision-language-models

Hugging Face Daily Papers ↗ · 2026-05-23 缓存

VaaWIT是一个端到端框架，通过双流注意力和视觉感知适配器增强大型视觉语言模型，用于多语言网页图像翻译，性能优于SOTA基线方法。

0 人收藏 0 人点赞

#large-vision-language-models

Hugging Face Daily Papers ↗ · 2026-05-15 缓存

VideoSeeker 引入了一种实例级视频理解的新范式，将智能体推理与视觉提示相结合，通过自动化数据合成和强化学习实现卓越性能，超越了 GPT-4o 和 Gemini-2.5-Pro。

0 人收藏 0 人点赞

#large-vision-language-models

arXiv cs.CL ↗ · 2026-05-12 缓存

本文探讨了利用大型视觉-语言模型处理遥感影像以进行建成环境推理任务（如设计建议和风险识别）。研究评估了 InternVL 和 Qwen 等模型，突显了其在支持智慧城市决策和定量推理方面的潜力。

0 人收藏 0 人点赞