Regimes：一种可审计、保留样本门控的改进循环——在ActiveGraph上对LongMemEval的演示

arXiv cs.AI 2026/06/10 04:00 论文

auditable held-out-gating improvement-loop event-sourced activegraph longmemeval agent-runtime

摘要

Regimes是一个建立在ActiveGraph事件溯源运行时上的可审计、保留样本门控的改进循环。它诊断AI智能体中的失败，提出修复方案，并仅在通过多重门控后才予以提升，将LongMemEval上的准确率最多提高了+0.10。

arXiv:2606.10241v1 公告类型：新摘要：自主改进循环难以信任，因为改进过程通常是附加在智能体上的外部脚手架：失败未被记录，诊断无法重放，提升或丢弃的决策落入了侧边数据库而非智能体自身的历史。我们证明，事件溯源智能体运行时消除了这一摩擦，并将受控改进转化为一流的工作流。当智能体状态是仅追加事件日志的确定性投影时，失败被记录，运行从其日志精确重放，候选补丁限定于类型化的流水线接缝，门控可审计，且每次提升或丢弃本身就是一个事件。我们通过Regimes演示了这一点，这是一个基于ActiveGraph运行时的循环，它诊断失败的评估，在流水线点提出修复，并仅在静态检查、沙箱执行、样本内评估和保留样本验证通过后才予以提升。该循环是目标无关的：相同的控制流通过通用接口针对不同任务运行。在LongMemEval-S上，主要的失败不是检索而是调和：证据已在装配的上下文中，但阅读器却回答错误。在五个带种子的保留样本划分中，Regimes发现了阅读器提示修复，在四个划分中最终保留样本准确率提高了+0.05到+0.10，在一个过度提升划分中提高了+0.01；两个划分单独显著（种子5未针对其顺序提升结构进行调整），且汇总计数仅为描述性，因为这些划分共享一个500道问题的池。持久的贡献包括：ActiveGraph作为可审计基础，使受控改进循环变得可行；其支持的保留样本门控循环；将每个失败路由到流水线位置的失败机制分类法（其相对于无路由基线的边际价值是主要开放问题）；以及提示即发现探针的假设。

查看原文

查看缓存全文

缓存时间: 2026/06/10 06:13

# 一个可审计、基于保留样本门控的改进循环——在LongMemEval上使用ActiveGraph的实证研究  
来源：https://arxiv.org/html/2606.10241 \(2026年6月8日\)  

###### 摘要  

自主改进循环很难被信任，因为改进过程通常是事后附加在智能体上的外部脚手架：失败未被记录，诊断无法重放，每一次“提升或丢弃”决策落入一个侧边数据库而非智能体自身的历史中。我们证明，一个基于事件溯源的智能体运行时消除了这种摩擦，并将受控改进转化为第一等的工作流。当智能体状态是仅追加事件日志的确定性投影时，失败被记录，已记录的运行完全从其日志中重放，候选补丁被限定在类型化的流水线接缝处，门控是可审计的，并且每一次提升或丢弃本身也是一个事件。我们通过Regimes来演示这一点，这是一个构建在ActiveGraph运行时之上的改进循环。Regimes诊断失败的评估，在智能体流水线的特定点提出修复方案，并且仅在修复通过静态检查、沙盒执行、样本内评估以及对保留样本的验证后才将其提升。该循环是目标无关的：相同的控制流通过一个通用接口对不同的智能体任务运行。ActiveGraph使得这一过程可审计而非轶事化：运行时是事件溯源的，因此已记录的运行能从其日志中确定性重放，模型和工具响应在被缓存时可用于精确重放，并且循环自身的历史（诊断、提议的修复、门控结果、提升或丢弃）本身就是一个可审计的事件日志，而非一个侧边数据库。我们在LongMemEval-S上演示该循环，其中主要的失败并非检索而是调和：相关证据已存在于组装好的上下文中，但阅读器仍然错误地回答。在五个独立的保留样本分割中，Regimes发现了阅读器提示修复，使得最终保留样本准确率在四个分割中提高了+0.05至+0.10，在一个过度提升的分割中提高了+0.01。在简单的配对检验下，两个分割单独显著（种子5的值未针对其四步顺序提升结构进行调整）；池化的翻转计数为正，但应作为描述性数据理解，因为这些分割来自同一个500题池。详细统计（每分割的McNemar检验、池化不一致数以及同池警告）在结果部分而非此处。案例研究展示了自主改进的前景和局限。保留样本门控拒绝了许多过拟合的候选方案，包括几乎所有的检索重加权修复，而弱分割则揭示了一个具体的下一步改进：更严格的提升阈值和感知平台期的停止规则。更广泛地说，发现的提示修复指向了自身之外：它们成功之处揭示了哪些证据使用行为是重要的，而它们的退化则揭示了何时某种行为不应触发。持久的智能体改进应将那些行为转化为基于检测到的结构而非粗粒度散文规则的条件性确定性算子。持久的贡献包括：ActiveGraph作为可审计的基础设施，使受控改进循环变得可行；它所支持的、可复现的基于保留样本门控的循环；将每次失败路由到流水线位置的失败制度分类法（其相较于未路由基线的边际价值是主要的开放问题）；以及“提示作为发现探针”的假设。  

## 1 引言  

长期运行的智能体会以重复的、可诊断的方式失败。当智能体积累历史、检索历史、组装上下文并阅读上下文以回答问题时，每个阶段都可能出错，且同类型的错误反复出现。缺失的不是另一个点修复，而是一个循环：能够检测重复失败、提出修复、安全测试修复，并仅当修复在未调优的样本上有效时保留它。本文提出了这样一个循环，称为Regimes，并使用一个智能体任务作为详细案例研究。两个通俗语言承诺塑造了设计。首先，修复仅当它在保留样本上有效时才被保留，而不仅仅是在用于编写它的样本上。我们称之为基于保留样本门控的提升，这是真正的改进与仅对循环碰巧看到的案例过拟合的候选方案之间的区别。其次，同一循环应能针对不同的智能体任务运行，而无需重写其核心。我们称之为目标无关：诊断、门控和轮换逻辑通过通用接口与任何任务通信，只有任务特定的部分（如何评估、流水线的哪些部分可以编辑、如何标记失败）被替换。  

ActiveGraph是核心故事的一部分，而非部署细节。该循环运行在ActiveGraph运行时（Nakajima, 2026 (https://arxiv.org/html/2606.10241#bib.bib4)）上，这是一个事件溯源系统，其状态是仅追加事件日志的确定性投影，并包含一个缓存模型和工具响应的缓存。这使自主改进变得可审计而非轶事化：运行完全从日志中重放而无需新的模型调用，评估受控且可重复，循环自身的历史（每次诊断、每次提议的修复、每个门控结果、每次提升或丢弃）本身就是一个可审计的事件日志，而非一个侧边数据库。一个自我改进的声明仅与其记录它的基础设施一样可信，而事件溯源的基础设施让读者可以审计每一步。这里是基础设施而非算法在起杠杆作用。  

案例研究是LongMemEval-S（Wu et al., 2024 (https://arxiv.org/html/2606.10241#bib.bib7)），一个长上下文记忆基准测试。先前在同一基础设施上的分析发现，确定性检索大多数时候已经将正确的证据放入了上下文中，因此主要的剩余失败不是检索而是调和：相关证据存在于组装的上下文中，但阅读器仍然回答错误。我们为这种失败起一个简短的名称以便重复使用：assembled-internal，意思是证据已被组装到上下文中但使用不当。重新排序检索到的轮次无法修复它，因为这些轮次已经存在于上下文中；只有改变阅读器使用证据的方式才能修复。  

该循环有一个小的词汇表，在此一次性定义并后续一致使用。失败制度（failure regime）是问题失败的诊断原因（例如，证据在上下文预算处被丢弃，或assembled-internal）。操作接缝（action seam）是循环被允许编辑以响应的流水线部分（重新加权检索分数、重新排序组装的轮次，或编辑阅读器的提示）。制度到接缝的映射是从诊断的制度到可以处理它的接缝的固定路由。因此，循环可以用一句话描述：诊断主导失败制度，将其路由到其接缝，让语言模型在该接缝处编写修复，并且仅当修复通过静态检查、沙盒执行、样本内评估和保留样本验证后才提升它。修复是命名流水线点上的可执行补丁；对于调和案例研究，相关的接缝编辑阅读器提示片段，因此此处有效的修复是阅读器提示编辑，而非任意生成的运行时代码。  

一个贯穿全文的想法值得一开始就明确陈述：被提升的提示不是终点。一个提示修复是一个高带宽探针。当独立发现的修复不断编码相同的证据使用行为，并且它们偶尔的退化恰好揭示了这种行为何时不应触发时，提示已经指向了一个候选的确定性算子。该循环的持久价值少于它所提升的提示，而多于该提示所揭示的算子。这将适度的准确率增益重新定位为一种发现工具，并连接了案例研究结果（第5节）、失败分析（第5.9节）和未来议程（第8节）。这也是为什么基础设施在此实验之外仍然重要：这些探针揭示的算子属于事件日志本身的类型化投影（第8.4节）。  

Regimes位于四个成熟线索的交汇处：自我改进的智能体（SICA, Robeyns et al. (2025 (https://arxiv.org/html/2606.10241#bib.bib5)); GRASP, Moll et al. (2026 (https://arxiv.org/html/2606.10241#bib.bib3))）、保留样本提示和程序优化（DSPy, Khattab et al. (2023 (https://arxiv.org/html/2606.10241#bib.bib2))）、可执行的失败模式分析（MAST, Cemri et al. (2025 (https://arxiv.org/html/2606.10241#bib.bib1)); AgentDebug, Zhu et al. (2025 (https://arxiv.org/html/2606.10241#bib.bib10))）、以及长上下文记忆基准测试（LongMemEval和LongMemEval-V2; Wu et al., 2024 (https://arxiv.org/html/2606.10241#bib.bib7); Wu et al., 2026 (https://arxiv.org/html/2606.10241#bib.bib8)）。贡献从底层基础设施到具体案例研究排序如下：  

1. ActiveGraph作为受控改进循环的可审计基础设施：事件溯源、从日志确定性重放、缓存的模型和工具响应、以及循环自身历史作为事件记录，这些都是使自主改进易于构建、重放、检查、约束和审计的原因。实证部分表明这种能力是真实的：循环能在不同任务间干净地迁移（第4节），并产生一个经过保留样本验证、完全可审计的改进运行（第5、6节）。  
2. Regimes作为构建在该基础设施上的一个改进循环：诊断、提出、门控、提升、轮换，完整历史记录为事件，并证明能在一个阅读器下改进一个任务（LongMemEval-S）。其目标无关性在接口和控制流层面确立，而非作为多任务实证结果。  
3. 一个拒绝过拟合修复的保留样本提升门控，在动作空间扩展到自由文本提示编辑之前就已安装。该门控是循环的信任护栏，也是它与先前门控优化器（DSPy, GRASP）共享的组件，而非其新颖之处：一次运行的样本内+0.18降至保留样本+0.04，门控阻止了过拟合部分。  
4. 一个失败制度分类法，将每次失败路由到可以处理它的流水线位置（得分、组装或阅读器提示）。该路由是循环的组织启发式；诊断步骤在向保留样本门控作者提供失败示例之外是否增加价值，在此仅被间接支持，并且是主要的开放问题（第5.8节，威胁11）。  
5. 一个LongMemEval-S案例研究，显示出适度但一致的改进：五个种子分割中有四个保留样本增益为+0.05至+0.10，第五个接近零，而第五个分割本身是一个信息丰富的过度提升发现。  
6. 一个从发现的修复和两个分析的退化中归纳出的假设：提示修复是有用的发现探针，但后来应成为基于检测到的结构而非粗粒度散文规则的条件性确定性算子。此处未构建或评估任何算子；这是一个前瞻性赌注，而非一个结果。  

基于基础设施的循环在接口和控制流层面是目标无关的，通过将循环重新应用于第二个结构不同的任务（文本到SQL）并使用字节相同的循环行为来证明。我们并未声称该循环在多个任务上具有实证改进；测量的改进特定于LongMemEval-S在单一阅读器（claude-sonnet-4-6）下的表现。校准后的声明（一次陈述以框定后续内容）如下：一个事件溯源运行时使诊断-路由-修复循环变得可行和可审计，并且在LongMemEval-S上，该循环产生了适度、方向一致的保留样本改进，其中五个分割中有两个单独显著，池化计数仅作为描述性的同池摘要显著。持久的贡献是基于基础设施的机制加上其提示修复所揭示的证据使用算子，而非基准测试的新纪录。  

读者地图。本文有一条主线：事件溯源运行时使受控改进循环变得可行，Regimes是这样一个循环，LongMemEval是压力测试，而受控算子是其启示。第2节将工作置于自我改进智能体、提示优化和失败分类法之间。第3节定义循环及其词汇。第4节通过将循环重新应用于第二个任务来测试它是否真正目标无关。第5节报告LongMemEval案例研究，包括多次种子复制和种子-101过度提升发现。第6节审计测量本身，包括制度分类器和确定性声明。第7节列出威胁。第8节论证为什么被提升的提示指向自身之外，指向受控算子，并作为提议的设计草图。第9和10节给出设计教训并总结。  

## 2 背景与相关工作  

自我改进与门控循环。SICA（Robeyns et al., 2025 (https://arxiv.org/html/2606.10241#bib.bib5)）展示了一个LLM编码智能体，它编辑自己的代码库以改进基准测试性能，消除了元智能体和目标智能体的分离。Regimes表明改进循环可以在事件溯源基础设施上保持目标无关的同时保留确定性重放。Reflexion（Shinn et al., 2023 (https://arxiv.org/html/2606.10241#bib.bib6)）是基础性的口头反思先驱，其中智能体编写自然语言负面批评并在后续尝试中以此作为条件。ExpeL（Zhao et al., 2024 (https://arxiv.org/html/2606.10241#bib.bib9)）将口头反馈扩展到跨轨迹规则提取。最接近的同代工作是GRASP（Moll et al., 2026 (https://arxiv.org/html/2606.10241#bib.bib3)），并且值得精确比较，因为本文的贡献最容易被误读。GRASP的重心是一种算法性的自我改进方法：提出自然语言技能，根据保留样本性能进行门控，保留那些泛化的技能。Regimes的重心是一个运行时故事：如果智能体构建在事件溯源图上，那么改进循环就自然变得容易构建、重放、界定范围和审计，而Regimes是这样一个循环。两者在一个独立发现的发现上真正重叠：验证门控，而非技能或变换编写器，是使结果真实的组件。GRASP通过一个消融实验（移除门控后准确率降至基线）证明了这一点；Regimes通过保留样本门控丢弃过拟合变换并折扣过拟合提示子句来证明。但门控是共享的现有技术（DSPy在2023年就依赖保留样本验证），而非区分因素。Regimes在门控上游和下游添加的内容是：基础设施使整个循环成为一等工作流，因此失败被记录，诊断确定性重放，候选补丁被限定在类型化接缝处，并且每一次提升或丢弃决策是智能体历史中的一个事件，而非外部表中的一行。两种方法在编辑内容和指向目标上也不同：GRASP门控一个自然语言技能库作为部署制品，在结构化程序环境中（FHIR任务、ALFWorld、WebShop）；Regimes在事件溯源基础设施上对类型化流水线接缝处的可执行补丁进行门控，目标是长上下文记忆中的证据调和（assembled-internal类别，在GRASP的设置中没有直接类比），并将被提升的提示视为探针，其终点是提炼后的受控算子，而非目的地。我们不比较效果大小：

Regimes：一种可审计、保留样本门控的改进循环——在ActiveGraph上对LongMemEval的演示

相似文章

@yoheinakajima: 在 arxiv 论文 #2 中，我处理了论文 #1 中的最后一个主题：@activegraphai 作为自我改进代理的架构可供性 self-improv…

@yoheinakajima：我展示了一种新颖的“regime-to-seam”方法，用于受控的自我改进，其中失败被分类并允许……

@yoheinakajima: 这个周末运行了我的第一个基准测试（longmemeval），主要是为了测试ActiveGraph，学到了很多！ - 这是一个垫脚石…

MemGym：面向LLM智能体的长时记忆环境

揭示SciML中的多模态模式：不同的失败模式与模态特定优化

提交意见反馈