AgenticSTS: 用于长期LLM代理的有界内存测试平台
摘要
AgenticSTS引入了一个使用类型化检索的、用于长期LLM代理的有界内存测试平台,在《Slay the Spire 2》上的结果显示性能提升。
查看缓存全文
缓存时间: 2026/07/03 07:53
论文页面 - AgenticSTS: 面向长视野LLM智能体的有界记忆测试平台
来源: https://huggingface.co/papers/2607.02255
摘要
一种针对长视野LLM智能体的有界契约方法,利用类型化检索来组装全新的提示,从而实现对记忆组件的隔离分析,并在复杂决策任务中展现出更优的性能。
长视野LLM智能体的记忆 (https://huggingface.co/papers?q=long-horizon%20LLM%20agent) 是关于每个未来决策允许看到什么的契约。最简单的契约将过去的观察、工具调用和反思追加到每个提示中,这使得先前上下文易于访问,但也使其变成一个混杂的混合物,其中任何单个记忆组件的影响都难以隔离。我们引入并实现了一种替代性的有界契约 (https://huggingface.co/papers?q=bounded%20contract):每个决策都由一个通过类型化检索 (https://huggingface.co/papers?q=typed%20retrieval) 组装的全新用户消息做出,不附加任何原始跨决策转录。因此,提示在任意长度的运行中保持有界,并且任何单一层都可以被隔离消融。我们在《杀戮尖塔2》(https://huggingface.co/papers?q=Slay%20the%20Spire%202) 中实例化了该契约,这是一款封闭规则、随机的牌组构建游戏,其每局运行需要数百个战术和战略决策。同一款游戏上前沿LLM的公开在线基准测试报告显示,在最低难度下、五种配置的胜率为零;而开发者报告的人类相同难度胜率为16%;任务虽难但尚未饱和。在我们的框架内,当启用战略性技能 (https://huggingface.co/papers?q=strategic%20skills) 时,一个固定A0消融显示出最大的观察差异:无存储基线赢得3/10局,加入技能层后赢得6/10局。在此样本量下,比较是方向性的而非统计上决定性的(Fisher精确检验p≈0.37);跨骨干网络的探测和公开累积上下文基线作为操作性比较而非对契约变量本身的受控测试报告。我们发布一个可复现的测试平台:298条已完成轨迹(附条件标签)、冻结的记忆/技能快照、提示记录和分析脚本——这是一个智能体设计以及一项经过验证的可重用方法论,用于研究显式记忆 (https://huggingface.co/papers?q=explicit%20memory) 层如何塑造长视野LLM智能体的决策。
查看arXiv页面 (https://arxiv.org/abs/2607.02255)查看PDF (https://arxiv.org/pdf/2607.02255)项目页面 (https://alayalab.github.io/AgenticSTS/)GitHub5 (https://github.com/AlayaLab/AgenticSTS)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.02255)
引用本文的模型0
无模型链接到此论文
请在模型 README.md 中引用 arxiv.org/abs/2607.02255 以从此页面链接。
引用本文的数据集0
无数据集链接到此论文
请在数据集 README.md 中引用 arxiv.org/abs/2607.02255 以从此页面链接。
引用本文的Space0
无Space链接到此论文
请在 Space README.md 中引用 arxiv.org/abs/2607.02255 以从此页面链接。
包含本论文的收藏集0
无收藏集包含此论文
请将本论文添加到收藏集 (https://huggingface.co/new-collection) 中以从此页面链接。
相似文章
面向长周期LLM智能体的选择性记忆保留
本文提出TraceRetain,这是一个用于冻结LLM智能体中绑定外部存储的轻量级框架,表明选择性记忆保留主要在记忆流包含噪声时与缓存启发式方法区分开,从而带来任务成功率和效率的提升。
ActiveMem:面向长程LLM推理的分布式主动记忆
ActiveMem提出了一种分布式主动记忆系统,将智能体记忆与大模型核心推理过程解耦,在长程任务上实现了最先进的准确率,同时显著降低了开销。
Memanto:面向长周期智能体的类型化语义记忆与信息论检索
Memanto 引入了一个基于模式(schema)、冲突解决机制以及 Moorcheh 信息论检索引擎的类型化语义记忆系统,在 LongMemEval 和 LoCoMo 基准测试中取得了最先进的结果,且零摄入成本、延迟低于 90 毫秒。
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
MemGym:面向LLM智能体的长时记忆环境
MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。