标签
MemoryDocDataSet 是一个全新的合成基准测试,包含 50 个微型世界和 1,000 个问答对,专为同时评估 AI 系统在对话记忆与长文档推理两项联合任务上的表现而设计。最优基线方法(RAG-Both)的整体 F1 值仅为 0.358,凸显了当前系统在将对话记忆与长文档导航能力融为一体方面存在的显著差距。