long-document-reasoning

标签

Cards List
#long-document-reasoning

# MemoryDocDataSet:联合对话记忆与长文档推理基准测试

arXiv cs.CL · 2天前 缓存

MemoryDocDataSet 是一个全新的合成基准测试,包含 50 个微型世界和 1,000 个问答对,专为同时评估 AI 系统在对话记忆与长文档推理两项联合任务上的表现而设计。最优基线方法(RAG-Both)的整体 F1 值仅为 0.358,凸显了当前系统在将对话记忆与长文档导航能力融为一体方面存在的显著差距。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈