标签
LongMINT 是一个基准测试,用于在长时域代理系统中评估多目标干扰下的记忆性能。
MEME 基准测试在多实体和动态变化的条件下评估 AI 记忆系统,揭示了即便采用先进的检索技术,在依赖关系推理方面依然存在显著挑战。