large-vision-language-models

标签

Cards List
#large-vision-language-models

MODE-RAG:流形异常诊断与基于能量的检索增强生成评估

arXiv cs.CL · 昨天 缓存

介绍了MODE-RAG,一个多智能体系统,利用变分自由能和蒙特卡洛树搜索动态门控干预,以减轻多模态检索增强生成系统中的幻觉,同时提供了ModeVent评估数据集。

0 人收藏 0 人点赞
#large-vision-language-models

CORA:通过一致性导向推理对齐分析与弥合多模态RLVR中的思考-答案差距

arXiv cs.CL · 3天前 缓存

本文分析了大型视觉语言模型中多模态可验证奖励强化学习(RLVR)中的思考-答案不一致性,并提出CORA方法,该方法引入了一致性奖励模型和混合奖励优势拆分,以提高忠实性和任务性能。

0 人收藏 0 人点赞
#large-vision-language-models

VaaWIT: 面向多语言网页图像翻译的大型语言模型视觉感知适配

Hugging Face Daily Papers · 2026-05-23 缓存

VaaWIT是一个端到端框架,通过双流注意力和视觉感知适配器增强大型视觉语言模型,用于多语言网页图像翻译,性能优于SOTA基线方法。

0 人收藏 0 人点赞
#large-vision-language-models

VideoSeeker: 通过原生智能体工具调用激励实例级视频理解

Hugging Face Daily Papers · 2026-05-15 缓存

VideoSeeker 引入了一种实例级视频理解的新范式,将智能体推理与视觉提示相结合,通过自动化数据合成和强化学习实现卓越性能,超越了 GPT-4o 和 Gemini-2.5-Pro。

0 人收藏 0 人点赞
#large-vision-language-models

基于大型视觉-语言模型利用遥感影像进行建成环境推理

arXiv cs.CL · 2026-05-12 缓存

本文探讨了利用大型视觉-语言模型处理遥感影像以进行建成环境推理任务(如设计建议和风险识别)。研究评估了 InternVL 和 Qwen 等模型,突显了其在支持智慧城市决策和定量推理方面的潜力。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈