AgenticSTS: 用于长期LLM代理的有界内存测试平台

Hugging Face Daily Papers 论文

摘要

AgenticSTS引入了一个使用类型化检索的、用于长期LLM代理的有界内存测试平台,在《Slay the Spire 2》上的结果显示性能提升。

长期LLM代理的记忆是一种契约,规定了每个未来决策可以访问哪些信息。最简单的契约是将过去的观察、工具调用以及反思追加到每个提示中,这使得先前的上下文易于访问,但也使其成为混杂的混合物,难以隔离任何单一记忆组件的影响。我们引入并实现了一种替代的有界契约:每个决策均通过类型化检索从全新的用户消息中生成,且不附加原始跨决策记录。因此,提示在任何长度的运行中保持有界,且任何单个层都可以被独立消融。我们在《Slay the Spire 2》中实例化了该契约,这是一款封闭规则、随机的卡牌构建游戏,其每局游戏需要数百次战术和战略决策。同一款游戏的公开在线基准测试报告显示,前沿LLM在最低难度下的五种配置中均取得零胜,而开发者报告的同难度人类胜率为16%;该任务困难但尚未饱和。在我们的测试框架中,固定A0消融显示,当启用触发的策略技能时观测到最大差异:无存储基线赢得3/10局,而添加技能层后赢得6/10局。在此样本量下,比较是方向性的而非统计上决定性的(Fisher精确检验p≈0.37);跨主干探测和公开累积上下文基线作为操作比较报告,而非对契约变量本身的对照测试。我们发布了一个可重复的测试平台:298条完整轨迹及条件标签、冻结的记忆/技能快照、提示记录和分析脚本——这是一种代理设计以及一种经过验证的、可重用的方法论,用于研究显式记忆层如何塑造长期LLM代理的决策。
查看原文
查看缓存全文

缓存时间: 2026/07/03 07:53

论文页面 - AgenticSTS: 面向长视野LLM智能体的有界记忆测试平台

来源: https://huggingface.co/papers/2607.02255

摘要

一种针对长视野LLM智能体的有界契约方法,利用类型化检索来组装全新的提示,从而实现对记忆组件的隔离分析,并在复杂决策任务中展现出更优的性能。

长视野LLM智能体的记忆 (https://huggingface.co/papers?q=long-horizon%20LLM%20agent) 是关于每个未来决策允许看到什么的契约。最简单的契约将过去的观察、工具调用和反思追加到每个提示中,这使得先前上下文易于访问,但也使其变成一个混杂的混合物,其中任何单个记忆组件的影响都难以隔离。我们引入并实现了一种替代性的有界契约 (https://huggingface.co/papers?q=bounded%20contract):每个决策都由一个通过类型化检索 (https://huggingface.co/papers?q=typed%20retrieval) 组装的全新用户消息做出,不附加任何原始跨决策转录。因此,提示在任意长度的运行中保持有界,并且任何单一层都可以被隔离消融。我们在《杀戮尖塔2》(https://huggingface.co/papers?q=Slay%20the%20Spire%202) 中实例化了该契约,这是一款封闭规则、随机的牌组构建游戏,其每局运行需要数百个战术和战略决策。同一款游戏上前沿LLM的公开在线基准测试报告显示,在最低难度下、五种配置的胜率为零;而开发者报告的人类相同难度胜率为16%;任务虽难但尚未饱和。在我们的框架内,当启用战略性技能 (https://huggingface.co/papers?q=strategic%20skills) 时,一个固定A0消融显示出最大的观察差异:无存储基线赢得3/10局,加入技能层后赢得6/10局。在此样本量下,比较是方向性的而非统计上决定性的(Fisher精确检验p≈0.37);跨骨干网络的探测和公开累积上下文基线作为操作性比较而非对契约变量本身的受控测试报告。我们发布一个可复现的测试平台:298条已完成轨迹(附条件标签)、冻结的记忆/技能快照、提示记录和分析脚本——这是一个智能体设计以及一项经过验证的可重用方法论,用于研究显式记忆 (https://huggingface.co/papers?q=explicit%20memory) 层如何塑造长视野LLM智能体的决策。

查看arXiv页面 (https://arxiv.org/abs/2607.02255)查看PDF (https://arxiv.org/pdf/2607.02255)项目页面 (https://alayalab.github.io/AgenticSTS/)GitHub5 (https://github.com/AlayaLab/AgenticSTS)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2607.02255)

引用本文的模型0

无模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2607.02255 以从此页面链接。

引用本文的数据集0

无数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2607.02255 以从此页面链接。

引用本文的Space0

无Space链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2607.02255 以从此页面链接。

包含本论文的收藏集0

无收藏集包含此论文

请将本论文添加到收藏集 (https://huggingface.co/new-collection) 中以从此页面链接。

相似文章

面向长周期LLM智能体的选择性记忆保留

arXiv cs.AI

本文提出TraceRetain,这是一个用于冻结LLM智能体中绑定外部存储的轻量级框架,表明选择性记忆保留主要在记忆流包含噪声时与缓存启发式方法区分开,从而带来任务成功率和效率的提升。

用 LLM 优化 LLM:面向测试时扩展的智能体发现方法

Hugging Face Daily Papers

本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。

MemGym:面向LLM智能体的长时记忆环境

arXiv cs.CL

MemGym是一个基准测试,用于评估LLM智能体在长时任务中的记忆形成,它统一了现有的智能体gym和合成流水线,并采用记忆隔离得分。它涵盖工具使用对话、多轮搜索、编码和计算机使用,并包含一个轻量级奖励模型(MemRM)以实现高效评估。