标签
这篇研究博客文章表明,反复将 LLM agent 的经历改写成文本形式的“教训”往往会降低性能,而非提升性能。作者发现,在 ARC-AGI 和 ALFWorld 等基准测试中,情景记忆保留的效果优于抽象巩固。