@HuggingPapers: MemTrace：LLM记忆系统的自动错误追踪通过将记忆管道转化为…来追踪记忆如何演变

X AI KOLs Timeline 2026/05/31 05:34 论文

llm memory-systems error-tracing debugging performance automatic-correction

摘要

MemTrace通过将记忆管道转化为可执行图，自动追踪LLM记忆系统中的错误，定位失败的根因，并自我修正，使性能提升最高达7.62%。

MemTrace：LLM记忆系统的自动错误追踪追踪记忆如何演变通过将记忆管道转化为可执行图。自动定位失败的根因并自我修正，使性能提升最高达7.62%。 https://t.co/yZ1RV5ZcDs

查看原文

查看缓存全文

缓存时间: 2026/05/31 15:13

MemTrace：LLM 记忆系统的自动错误追踪

追踪记忆如何演变通过将记忆管道转换为可执行图。

自动定位失败的根本原因并自我修正，将性能提升高达 7.62%。https://t.co/yZ1RV5ZcDs

相似文章

X AI KOLs Following

MemTrace 是一个新工具，通过跨多轮追踪记忆操作，使LLM记忆系统变得可调试，解决了当前记忆增强型智能体的黑箱问题。

arXiv cs.AI

MemFail是一个诊断基准，通过形式化总结、存储和检索操作，并用对抗性设计的数据集进行评估，来隔离LLM记忆系统的故障模式。

X AI KOLs Following

MINTEval是一个新的基准，用于评估在频繁上下文变化的持续更新环境中LLM代理和记忆系统的表现。它显示当前系统性能不佳，典型系统的平均准确率仅为27.9%。

arXiv cs.CL

MemEvoBench 引入了首个用于评估 LLM 代理内存安全性的基准测试，衡量对抗性内存注入、噪声输出和有偏反馈在问答与工作流任务中导致的行为衰退。该研究表明内存演化是安全失败的重要因素，且静态防御措施不足以应对。

arXiv cs.CL

MemPro 是一个系统级进化框架，它将记忆构建-检索管道视为一个可进化的程序，使用进化智能体（Evolving Agent）迭代诊断失败并创建改进版本。在长期任务基准上的实验表明，与静态和提示级基线相比，它在性能-成本权衡方面取得了持续改进。