标签
介绍了MODE-RAG,一个多智能体系统,利用变分自由能和蒙特卡洛树搜索动态门控干预,以减轻多模态检索增强生成系统中的幻觉,同时提供了ModeVent评估数据集。
本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。
VaaWIT是一个端到端框架,通过双流注意力和视觉感知适配器增强大型视觉语言模型,用于多语言网页图像翻译,性能优于SOTA基线方法。
VideoSeeker 引入了一种实例级视频理解的新范式,将智能体推理与视觉提示相结合,通过自动化数据合成和强化学习实现卓越性能,超越了 GPT-4o 和 Gemini-2.5-Pro。
本文探讨了利用大型视觉-语言模型处理遥感影像以进行建成环境推理任务(如设计建议和风险识别)。研究评估了 InternVL 和 Qwen 等模型,突显了其在支持智慧城市决策和定量推理方面的潜力。