SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准
摘要
SuperMemory-VQA 是一个新的自我中心VQA基准,包含52.9小时AI眼镜录像和4,853个问答对,旨在评估AI助手在长期记忆任务上的表现,涵盖物体回忆、意图、时间线和对话。基准测试显示,现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。
AI眼镜为AI代理充当个性化记忆助手提供了引人注目的平台。要真正有用,这类系统必须超越短期视频理解,解决人类在实用、个人或社交目的下,对纵向自我中心视频流中记忆缺失的问题。然而,现有的自我中心数据集主要关注动作识别或来自短片的通用问答,测量的是感知能力而非真实的人类记忆需求。我们推出了SuperMemory-VQA,一个用于评估AI助手在实用、长期记忆任务上的自我中心视觉问答(VQA)数据集。它包含52.9小时的日常活动AI眼镜录像,同步了RGB视频、音频转录、眼动追踪、惯性测量单元和SLAM轨迹。通过人工验证的标注流水线,我们构建了4,853个有依据的问答对,涵盖物体与位置记忆、意图回忆、视觉场景回忆、时间线重建、对话记忆和上下文检索。每个问题以多项选择题形式提出,并包含明确的“不可回答”选项以测试幻觉鲁棒性。对领先的智能体框架和LLM骨干的基准测试表明,现有系统在真实世界的记忆任务上仍远未达到可靠,这凸显了需要新的架构来构建有依据的AI记忆,使其仅在证据充分时才能回答。参与者调查进一步支持我们的问题具有现实性、实用性,并且与日常记忆需求相符。
相似文章
MemLens:大规模视觉-语言模型中多模态长期记忆的基准测试
MemLens是一个新的基准测试,通过多轮对话评估大规模视觉-语言模型的记忆能力。它比较了长上下文和记忆增强方法,揭示了二者的局限性,并推动了混合架构的发展。
MemEye:面向多模态智能体记忆的视觉中心评估框架
MemEye 是一个视觉中心的评估框架,通过衡量 8 个生活场景任务中的视觉证据粒度和检索复杂度来评估多模态智能体记忆。该框架揭示了当前架构在保留细粒度视觉细节和推理随时间变化的状态方面仍然存在困难。
# MemoryDocDataSet:联合对话记忆与长文档推理基准测试
MemoryDocDataSet 是一个全新的合成基准测试,包含 50 个微型世界和 1,000 个问答对,专为同时评估 AI 系统在对话记忆与长文档推理两项联合任务上的表现而设计。最优基线方法(RAG-Both)的整体 F1 值仅为 0.358,凸显了当前系统在将对话记忆与长文档导航能力融为一体方面存在的显著差距。
WorldMemArena:通过动作-世界交互评估多模态智能体记忆
WorldMemArena 是一个新的基准测试,包含400个多会话多模态任务,用于评估多模态智能体记忆,比较了长上下文、RAG和基于框架的记忆方法,揭示了更好的记忆写入并不保证更好的性能,并且系统在处理视觉证据方面存在困难。
supermemoryai/supermemory
Supermemory 是一个开源的AI记忆与上下文引擎,能够自动从对话中学习、提取事实、构建用户画像,并提供个性化的上下文。它在多项AI记忆基准测试中排名第一,并提供单一API,用于为AI代理添加记忆、RAG和连接器。