标签
介绍DMV-Bench,一个用于评估多模态智能体视觉记忆的交互式基准测试,该测试利用产品图像中的偶然视觉线索,并提出了DualMem,一种双编码记忆架构,在各种链长度上优于纯文本和其他多模态基线。
本文介绍了AgentViSS基准,用于评估多模态社交模拟中的视觉社交智能,包含240个场景及对齐的视觉文本证据。评估七个近期MLLM发现局部角色扮演与基于视觉的交互管理之间存在差距。
SpatialWorld是一个统一的基准测试,用于评估多模态智能体在各种真实世界任务中的交互式空间推理能力。结果表明,即使是最强大的模型,其任务成功率也很低。
介绍了TaskMem,一种基于强化学习的多模态代理动态记忆框架,在流式视频基准测试上实现了6.3%、7.0%和5.3%的准确率提升。
本文形式化了多模态智能体中的幻觉到动作转换,并提出了携带证据的智能体(ECA),它使用受限验证器仅授权安全的工具调用,在200个任务的流水线上实现了0%的不安全动作率。
本文介绍了同策略数据演化(ODE)和一种视觉原生智能体框架,以提升多模态深度搜索智能体的性能。通过实现视觉证据的可重用性和闭环数据生成,ODE 显著提升了 Qwen3-VL 智能体在多个基准测试中的表现,超越了 Gemini 2.5 Pro。
HyperEyes 是一种并行多模态搜索代理,它利用双粒度强化学习来优化推理效率,与现有代理相比,在显著减少工具调用轮次的同时实现了更高的准确率。
InterLV-Search 是本文提出的一项新基准,旨在评估交织的语言-视觉智能体搜索能力,凸显了当前系统在视觉证据搜集和多模态融合方面的局限性。