标签
MementoGUI 提出了一种用于 GUI 代理的插件式智能体记忆框架,该框架使用学习到的控制器进行选择性记忆管理与检索,通过压缩的视觉与文本表示提升了长期任务的性能。
本文介绍了Omni-DuplexEval,这是一个用于多模态大语言模型中实时双工交互的基准测试和自动评估框架,旨在评估流式场景下的连续响应生成和主动事件检测。
提出VeGAS框架,一种针对基于MLLM的具身智能体的测试时框架,该框架采样多个候选动作,并利用生成式验证器选择最可靠的动作,在挑战性任务上相比CoT基线实现了高达36%的相对性能提升。
本文分析了针对多模态大语言模型(MLLMs)的意图混淆越狱攻击中存在的重建-隐藏权衡问题。提出了感知隐藏的变体构建方法和与关键词相关的干扰图像,以更有效地利用模型漏洞。
RemoteZero 是一个框架,通过利用多模态大语言模型(MLLMs)的语义验证能力,消除了地理空间推理中对人工标注框监督的需求,从而实现了从未经标注的遥感数据中进行自我演进的定位能力。
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。