你的智能体也在老化:部署系统中的智能体生命周期工程

arXiv cs.AI 论文

摘要

本文介绍了AgingBench,一个衡量已部署AI智能体因记忆状态变化、交互历史和生命周期事件而随时间退化的基准。它将老化分为四种机制,并提供诊断工具进行针对性修复。

arXiv:2605.26302v1 公告类型:新 摘要:长寿命AI智能体越来越多地被部署为持久运行的系统,但它们仍然像刚初始化的模型一样被评估。上线第一天的基准测试忽略了一个基本的系统问题:部署后智能体能保持可靠多久?即使模型权重被冻结,智能体的有效状态也在不断变化,因为它压缩交互历史、从不断增长的记忆库中检索、在更新后修正事实,并接受常规维护。因此,可靠性成为完整智能体框架的生命周期属性,而不仅仅是基础模型的快照属性。我们引入了AgingBench,一个用于智能体生命周期工程的纵向可靠性基准:不仅衡量已部署智能体是否退化,还衡量退化的具体形式以及修复应针对哪里。AgingBench将智能体老化分为四种机制:压缩老化、干扰老化、修订老化和维护老化。为了诊断这些故障,AgingBench使用时间依赖图和配对反事实探针,生成针对记忆流水线的写入、检索和利用阶段的诊断概览。在7个场景、14个模型、多种记忆策略以及运行器控制和自主智能体上,约400次运行(跨越8到200个会话)表明智能体老化并非一维的:行为测试可能保持良好而事实精度下降;衍生状态跟踪可能在单个模型内急剧崩溃;同样错误的答案可能因诊断概览指向不同而需要不同的修复。这些结果表明,可靠的智能体部署需要生命周期评估、机制级诊断和阶段针对性修复,而不仅仅是更强的第一天模型。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:03

# 你的智能体也在老化:面向部署系统的智能体寿命工程

来源: https://arxiv.org/html/2605.26302

\correspondingauthor *共同贡献,†联系方式: atlaswang@utexas\.edu\.
Jianing Zhu∗Yeonju Ro∗John T\. RobertsonKevin WangJunbo Li Haris VikaloAditya AkellaZhangyang "Atlas" Wang†
德克萨斯大学奥斯汀分校

\faPersonCane 一站式老化关怀:https://agingbench.github.io/

###### 摘要

长寿命AI智能体正越来越多地被部署为持久化运行系统,但人们却仍像评估刚初始化的模型一样评估它们。上线首日的基准测试遗漏了一个基本的系统问题:智能体在部署后能保持可靠多久?即使模型权重被冻结,智能体的有效状态也在不断变化:它压缩交互历史、从不断增长的记忆库中检索、在更新后修订事实、并经历常规维护。因此,可靠性成为整个智能体框架的寿命属性,而不仅仅是基础模型的瞬时快照属性。我们引入**AgingBench**,一个用于**智能体寿命工程**的纵向可靠性基准:它不仅衡量部署后的智能体是否退化,还衡量退化的具体形式以及修复应针对哪个环节。AgingBench将智能体**老化**组织为四种机制:**压缩老化**,写入时的摘要丢弃了未来相关的细节;**干扰老化**,积累的相似记忆压倒了目标事实;**修订老化**,已变更或衍生出的状态未被正确更新;**维护老化**,刷新或重压缩等生命周期事件触发了回退。为了诊断这些故障,AgingBench使用时序依赖图和配对反事实探针,生成针对记忆流水线中写入、检索和利用阶段的诊断画像。在7个场景、14个模型、多种记忆策略,以及运行器控制与自主智能体两种模式下,超过约400次运行(跨越8到200个会话)的结果表明:**智能体老化不是一维的**——行为测试可以保持正常而事实精度却在下降;衍生状态跟踪可能在同一模型内急剧崩溃;相同的错误答案可能根据诊断画像指向的不同而需要不同的修复。这些结果提示,可靠的智能体部署需要寿命评估、机制级诊断和阶段针对性的修复,而不仅是更强的上线首日模型。

\NAT@set@cites

## 1 引言

AI智能体正从一次性聊天界面转向跨多个会话进行记忆、行动和状态更新的长寿命系统。一个编码智能体可能跨多次开发任务携带仓库上下文[7 (https://arxiv.org/html/2605.26302#bib.bib7),28 (https://arxiv.org/html/2605.26302#bib.bib28)];一个企业助手可能跟踪跨数月项目的决策[45 (https://arxiv.org/html/2605.26302#bib.bib45)];一个个人智能体可能通过日常交互积累偏好、约束、预算、联系人和日程。一旦智能体以这种方式部署,可靠性就不再只是上线首日的基准分数。我们必须问:同一个智能体是否能在时间推移中保持可靠?我们使用“**智能体老化**”来命名这种新的部署故障类别:由变化的记忆状态、积累的交互历史和生命周期事件导致的已部署智能体的随时间推移的可靠性退化。与人类老化的类比并非生物学意义上的,但它抓住了用户面临的危险。老化之所以令人担忧,是因为衰退可能是渐进的、部分隐藏的:一个人可能听起来还是原来的自己,但记忆已变得不那么精确,相似的经历模糊在一起,旧信息干扰新事实[11 (https://arxiv.org/html/2605.26302#bib.bib11)]。长寿命智能体创造了类似的表面可靠性鸿沟。它们可能继续流畅而自信地回答,而与此同时,真正重要的精确值已然消失,错误的实体被检索到,过时的事实仍被当作有效,或者一次常规的记忆操作破坏了智能体之前所知道的东西。这种故障模式特别容易被忽视,因为冻结的模型权重并不意味着冻结的智能体行为。一个已部署的智能体是一个**框架**:一个语言模型与记忆写入、存储、检索、利用、工具、提示、工作区和维护过程相结合。即使模型本身固定,每当智能体压缩旧交互、积累相似记忆、修订事实、迁移文件、更新提示或经历内存压缩时,有效系统状态[43 (https://arxiv.org/html/2605.26302#bib.bib43)]就会发生变化。在图1 (https://arxiv.org/html/2605.26302#S1.F1)中,这表现为具体的第N天故障:一个药物剂量变成了仅仅是“每日药物”,“John Smith”与“John Smyth”被混淆,已取消的付费计划仍被视为有效,一个重复的周二日程在维护后消失。类似的依赖状态可靠性的问题也出现在其他长期运行的系统中:数据库积累过期索引[5 (https://arxiv.org/html/2605.26302#bib.bib5)],软件积累技术债务[31 (https://arxiv.org/html/2605.26302#bib.bib31)],生产系统依赖回归测试和外部检查[36 (https://arxiv.org/html/2605.26302#bib.bib36),16 (https://arxiv.org/html/2605.26302#bib.bib16)]。然而,长寿命AI智能体仍然缺乏衡量和诊断部署后可靠性退化的既定基础。

参见说明文字

**图1:部署后的四种老化机制。** 左:第一天交互被写入记忆。中:机制特定的老化曲线。右:第N天探针揭示不同的用户可见故障。(a) **压缩**:写入时的摘要丢弃了未来相关的细节,导致缺失。(b) **干扰**:积累的相似条目压倒了目标事实,导致混淆。(c) **修订**:已变更或衍生出的状态未被正确更新,导致过时答案。(d) **维护**:常规生命周期事件(如记忆重压缩或历史刷新)触发回退。

近期一些记忆基准测试[17 (https://arxiv.org/html/2605.26302#bib.bib17),47 (https://arxiv.org/html/2605.26302#bib.bib47),20 (https://arxiv.org/html/2605.26302#bib.bib20),8 (https://arxiv.org/html/2605.26302#bib.bib8),30 (https://arxiv.org/html/2605.26302#bib.bib30),26 (https://arxiv.org/html/2605.26302#bib.bib26)]已开始研究长上下文和多会话记忆,表明智能体性能可能随着上下文增长而下降。这是重要的第一步,但它仍主要将可靠性视为一个端到端分数:给定当前会话,智能体回答正确与否?对于长寿命智能体来说,这还不够。一个已部署的智能体运行在会话序列上(即**智能体寿命**),评估其可靠性需要理解性能**是否**退化,以及退化**如何**和**在何处**出现。我们将这个问题领域称为**智能体寿命工程(ALE)**:衡量、诊断和修复长期运行智能体系统中退化的方法。一个具有寿命意识的评估应该跟踪随时间变化的可靠性,区分不同的退化机制,并定位智能体框架中失效的部分。没有这个结构,同样的表面症状“智能体出错了”就会导致同样笼统的处方“给它更多记忆”。但正确的修复可能完全不同:在写入时保留精确值;改善易混淆条目间的检索;强制模型使用检索到的上下文;明确更新衍生状态;或在维护后运行回归检查。换句话说,长寿命智能体需要一个诊断框架,而不仅仅是一个记忆分数。

智能体寿命工程(ALE)提出三个关键问题:
1. 已部署的智能体**能保持可靠多久**?
2. 可靠性**如何**退化:通过**压缩**、**干扰**、**修订**还是**维护**?
3. **修复应在何处着眼**:在**写入**、**检索**、**利用**阶段,还是在记忆的**生命周期**中?

为此,我们引入**AgingBench**,一个用于智能体寿命工程的纵向基准基础。它不仅衡量智能体**是否**退化,还衡量它们**如何**退化以及**修复应在何处着眼**。如图1所示,我们将智能体老化组织为四种机制:**压缩老化**,未来相关的细节在写入时被破坏或未充分指定;**干扰老化**,积累的相似记忆掩埋或混淆了目标事实;**修订老化**,已变更、撤回或衍生出的状态未被正确更新;**维护老化**,刷新、重压缩、迁移或提示变更等生命周期事件静默地改变行为。

为了使这些机制可测量,AgingBench使用一个**时序依赖有向无环图(DAG)**,它编码了部署中的跨会话结构:事实取代先前事实,探针依赖于间隔多个会话引入的事实,易混淆实体逐步积累,生命周期事件在受控时间发生。根据智能体轨迹计算的机制特定指标,生成跨越运行寿命而非单一快照分数的老化曲线。所有场景都由程序化生成器支持,允许对会话数量、依赖密度、更新率、链深度和干扰密度进行可控的、种子可重复的扫描。这些生成器并非旨在模拟真实用户行为的完整分布;它们提供了一个受控的压力面,用于隔离那些在嘈杂的生产痕迹中难以解开的纵向故障。

AgingBench还诊断记忆流水线内部的故障。一个已部署的智能体是一个写入、存储、检索和使用信息的循环系统,因此仅说“记忆变差了”是没有操作性的。我们在评估框架中构建了配对反事实探针:用智能体已写入记忆上的完美检索替换实际检索,再用完美上下文替换写入和检索。由此产生的签名作为面向修复的诊断画像,覆盖写入、检索和利用阶段,而非针对每种架构的唯一因果分解。因此,该基准的设计不仅是为了给智能体排名,而且是为了表明改进应针对写入时的保留、检索、利用还是生命周期处理。

在7个场景、14个模型、多种记忆策略,以及运行器控制与自主智能体两种框架下,我们发现智能体老化是多维的。行为合规性可以保持正常而事实精度却在下降;衍生状态跟踪可能在同一模型内急剧崩溃;强模型可能保留信息却未能复用;常规维护可能引发事件后的突然回退。最重要的是,相同的总体失败率可能隐藏写入、检索和利用环节的不同根本原因。因此,一个单一的记忆分数丢弃了最关键的部署信号:什么失败了、为什么失败、以及什么干预措施才能真正修复它。

我们的贡献总结如下:
- • **长寿命智能体可靠性的寿命工程化表述**。我们将已部署的智能体框架作为随时间演化的系统,其可靠性依赖于运行寿命而非仅上线首日能力,并定义智能体老化为整个智能体框架中随时间的退化。
- • **智能体老化的四机制分类**。我们将退化组织为压缩、干扰、修订和维护老化,每种机制都映射到一种部署压力,并配备用于审计的机制特定指标(§3 (https://arxiv.org/html/2605.26302#S3))。
- • **AgingBench,智能体寿命工程(ALE)的纵向基准基础**。我们构建了一套实用的长寿命智能体场景基准套件,配备程序化生成、时序依赖结构、可控老化压力,并支持受控记忆策略评估和自主智能体评估(§4 (https://arxiv.org/html/2605.26302#S4))。
- • **记忆流水线故障的反事实诊断画像**。我们引入了一个可配置的评估框架,带有配对反事实探针,将“智能体忘了”之类的表面故障缩小为写入时遗漏、检索失败、利用失败或生命周期冲击的诊断画像(§5 (https://arxiv.org/html/2605.26302#S5))。
- • **实证发现表明智能体老化不是一维的**。在所有四种机制上,我们展示了智能体老化可能隐藏在行为测试之下,在衍生状态跟踪中急剧显现,对常规生命周期事件敏感,并且阶段性地依赖于模型能力和记忆架构(§6 (https://arxiv.org/html/2605.26302#S6))。

## 2 相关工作

现有工作越来越多地研究多会话记忆和AI智能体的长程能力;AgingBench的不同之处在于,它提供了**智能体寿命工程**的评估基础,通过老化曲线、时序依赖有向无环图、生命周期事件注入和组件感知的诊断画像进行系统化测量。我们将在附录A (https://arxiv.org/html/2605.26302#A1)中详细展开这一比较。

**已部署智能体的退化。** 在实践中,长寿命智能体面临着任何快照基准都无法捕捉的压力。一个将数月的项目上下文压缩到固定大小摘要中的编码智能体,不可避免地会丢失像特定API版本或配置值这样的低频细节[14 (https://arxiv.org/html/2605.26302#bib.bib14)]。一个管理多个客户端的企业助手,当相似的条目在其记忆库中积累时,可能会检索到错误客户的预算[52 (https://arxiv.org/html/2605.26302#bib.bib52)]。一个曾经跟踪用户饮食限制的个人规划器,在用户取消该限制后未能更新,继续强制执行一个过时的约束[41 (https://arxiv.org/html/2605.26302#bib.bib41)]。一个运行了数周都表现可靠的生产智能体,在一次记忆重压缩后静默地出现回退[40 (https://arxiv.org/html/2605.26302#bib.bib40)]。与其他那些外部目标本身在演化(例如代码库演化[10 (https://arxiv.org/html/2605.26302#bib.bib10)])的基准测试互补,我们的工作衡量的是智能体内部记忆状态的退化,并进行组件归因。在记忆系统方面,一些工作[51 (https://arxiv.org/html/2605.26302#bib.bib51),44 (https://arxiv.org/html/2605.26302#bib.bib44)]将压缩描述为瓶颈,但并未衡量它如何降低智能体可靠性,也未跟踪部署压力的完整范围。

**系统框架的生命周期事件与归因。** 很少有现有的基准(我们在表4 (https://arxiv.org/html/2605.26302#A1.T4)中做了总结)将操作事件作为受控实验条件来处理,并且通常假设一个静态的评估环境;在基准运行期间智能体的记忆不会演化。然而,已部署的智能体经常经历此类事件,如记忆压缩或刷新[19 (https://arxiv.org/html/2605.26302#bib.bib19)],而它们对可靠性的影响尚未被测量。类似地,故障归因在很大程度上仍未得到解决:现有基准报告端到端分数,但没有诊断故障发生在写入时、检索期间还是利用阶段。TierMem[51 (https://arxiv.org/html/2605.26302#bib.bib51)]部分地解决了这个问题,通过区分摘要导致的遗漏和推理失败,但没有提供通用的反事实框架。我们的方法改编了反事实分析来检查长寿命智能体的故障。

## 3 智能体老化分类

为了回答有关ALE的问题,我们首先将长寿命智能体的退化组织为四种机制(图1

相似文章

评估交互式AI智能体的认知年龄对齐

Hugging Face Daily Papers

本文介绍了ChildAgentEval,这是一个基于心理测量学的基准测试,用于评估基于MLLM的智能体的认知年龄对齐,将其推理与人类发展阶段进行比较。

Agent工程中的枯燥部分

Reddit r/AI_Agents

作者讨论了在生产中构建可靠AI Agent时那些不引人注目但至关重要的方面,包括监控运行中的进程、恢复失败的任务以及提供UI状态,并向社区询问常见的痛点和现成的解决方案。