SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

Hugging Face Daily Papers 2026/05/30 00:00 论文

egocentric-video visual-question-answering benchmark memory-ai multimodal ai-glasses long-horizon

摘要

SuperMemory-VQA 是一个新的自我中心VQA基准，包含52.9小时AI眼镜录像和4,853个问答对，旨在评估AI助手在长期记忆任务上的表现，涵盖物体回忆、意图、时间线和对话。基准测试显示，现有的智能体框架和大型语言模型在这些真实世界的记忆挑战上仍远未达到可靠水平。

AI眼镜为AI代理充当个性化记忆助手提供了引人注目的平台。要真正有用，这类系统必须超越短期视频理解，解决人类在实用、个人或社交目的下，对纵向自我中心视频流中记忆缺失的问题。然而，现有的自我中心数据集主要关注动作识别或来自短片的通用问答，测量的是感知能力而非真实的人类记忆需求。我们推出了SuperMemory-VQA，一个用于评估AI助手在实用、长期记忆任务上的自我中心视觉问答（VQA）数据集。它包含52.9小时的日常活动AI眼镜录像，同步了RGB视频、音频转录、眼动追踪、惯性测量单元和SLAM轨迹。通过人工验证的标注流水线，我们构建了4,853个有依据的问答对，涵盖物体与位置记忆、意图回忆、视觉场景回忆、时间线重建、对话记忆和上下文检索。每个问题以多项选择题形式提出，并包含明确的“不可回答”选项以测试幻觉鲁棒性。对领先的智能体框架和LLM骨干的基准测试表明，现有系统在真实世界的记忆任务上仍远未达到可靠，这凸显了需要新的架构来构建有依据的AI记忆，使其仅在证据充分时才能回答。参与者调查进一步支持我们的问题具有现实性、实用性，并且与日常记忆需求相符。

查看原文

SuperMemory-VQA: 一个面向长期记忆的自我中心视觉问答基准

相似文章

MemLens：大规模视觉-语言模型中多模态长期记忆的基准测试

DMV-Bench: 通过偶然线索注入诊断长周期多模态智能体的视觉记忆

MemEye：面向多模态智能体记忆的视觉中心评估框架

# MemoryDocDataSet：联合对话记忆与长文档推理基准测试

基于证据的视频问答

提交意见反馈