标签
MemTrace 是一个基准,它在知识点层面评估 LLM 代理的记忆,探究事实在不同记忆年龄、问题类型和证据条件下的表现。它揭示出汇总的准确率掩盖了不同的失败模式,并且主要瓶颈是证据的使用而非检索。