基于智能体AI、嵌套学习与语义缓存的幻觉缓解及AI可持续性

arXiv cs.AI 论文

摘要

本文提出了一种记忆增强的多智能体架构,采用嵌套学习、连续记忆系统和语义缓存来缓解LLM流程中的幻觉问题,在显著减少事实错误的同时提高了运营效率。

arXiv:2605.29055v1 公告类型:新 摘要:幻觉仍然是生产级LLM系统的主要可靠性障碍,尤其是在多智能体流程中,未经证实的声明可能不受检查地在各个阶段传播。本文采用受HOPE启发的嵌套学习架构,结合连续记忆系统(CMS)和语义相似性缓存,在混合基准测试上进行了评估,该基准包含310个提示词,其中包括217个认识不确定性提示和93个易诱导虚构的压力测试提示。通过开放楼层协议(OFP)编排的三阶段智能体流程,使用五个关键绩效指标进行评估——FCD(事实声明密度)、FGR(事实依据引用数)、FDF(虚构免责声明频率)、ECS(显式情境化评分)和OSR(可观测性评分比率)——汇总为THS(总幻觉评分),并采用五组权重配置来研究缓解与可观测性之间的权衡。FDF、ECS、OSR和FGR作为缓解信号被扣除,因此更负的THS值表示更强的缓解效果。FrontEndAgent配置为高随机性生成器(温度=1.0),以生成逼真的幻觉基线,而SecondLevelReviewer和ThirdLevelReviewer则作为渐进式修正器运行。这种非对称设计在五组权重配置下实现了端到端THS降低-31.3%至-35.9%。语义缓存在930次潜在调用中实现了440次缓存命中(命中率47.3%),将LLM调用减少至490次,降低了能耗和二氧化碳排放足迹,使多阶段审查流程在生产规模下具有运营可行性。极端可观测性配置达到了最负的最终THS值(-0.0709),证实了强调可观测性的配置能够增强而非削弱缓解效果。这些发现表明,无需模型重新训练,记忆增强的多智能体设计可以共同提高事实可靠性、运营效率和可审计性。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:12

# 通过智能体AI、嵌套学习和基于语义缓存实现AI可持续性的幻觉缓解

来源:https://arxiv.org/html/2605.29055

[![[无标题图像]](https://arxiv.org/html/2605.29055v1/x1.png)Diego Gosmar](https://orcid.org/0009-0008-7513-1255) 人工智能负责人,Tesisquare 成员,Open Voice Interoperability Initiative Linux Foundation AI & Data 意大利都灵,[email protected]  
[![[无标题图像]](https://arxiv.org/html/2605.29055v1/x2.png)Deborah A. Dahl](https://orcid.org/0000-0002-3389-2784) 负责人,Conversational Technologies 成员,Open Voice Interoperability Initiative Linux Foundation AI & Data 美国宾夕法尼亚州普利茅斯会议

###### 摘要

幻觉仍然是生产级LLM系统的主要可靠性障碍,尤其是在多智能体管道中,未经支持的声明可能在各个阶段不受检测地传播。本文将受HOPE启发的嵌套学习架构与连续记忆系统(CMS)和语义相似性缓存相结合,适配到一个包含310个提示的混合基准上,该基准结合了217个现实认知不确定性提示和93个虚构诱导压力测试提示。

一个通过开放楼层协议(OFP)编排的三阶段智能体管道,用五个KPI(FCD(事实声明密度)、FGR(事实依据引用)、FDF(虚构免责频率)、ECS(显性语境化评分)和OSR(可观测性评分比率))进行评估,这些KPI聚合为总幻觉评分(THS),涵盖五种权重配置,用于研究缓解与可观测性之间的权衡。FDF、ECS、OSR和FGR作为缓解信号被减去,因此更负的THS表示更强的缓解。FrontEndAgent被故意配置为一个弱、高随机性的生成器(temperature = 1.0),以产生真实的幻觉基线,而SecondLevelReviewer和ThirdLevelReviewer作为渐进式校正器。这种不对称设计在五种权重配置下实现了端到端THS降低-31.3%至-35.9%,其中更负的分数对应更强的缓解。语义缓存实现了440次缓存命中,覆盖930次潜在调用(47.3%命中率),将LLM调用减少到490次,降低了能耗和CO2e足迹,并使多阶段审查管道在生产规模下可操作可行。极致可观测性配置获得了最负的最终THS(-0.0709),证实了重可观测性配置强化而非损害了缓解效果。

这些发现表明,记忆增强的多智能体设计可以在无需模型重新训练的情况下,共同提高事实可靠性、操作效率和可审计性。

## 1 引言

LLM在生产系统中的部署暴露了一个持续的可靠性差距:模型以高置信度生成事实无依据的声明,这种现象通常被称为幻觉。在单模型设置中,这已经是个问题;而在多智能体管道中,一个智能体的输出成为下一个智能体的输入,未经检查的幻觉可能在到达最终用户之前跨阶段传播和放大[13 (https://arxiv.org/html/2605.29055#bib.bib45)]。针对此类故障的结构性防御主要是在提示注入攻击的背景下研究的,其中威胁是敌对输入而非内部生成的无依据声明;然而防御架构可以直接转移。它们大致分为两类:输入侧过滤器,在内容到达模型之前拦截不可靠的内容[12 (https://arxiv.org/html/2605.29055#bib.bib9)];以及输出侧判断器,在事后评分或重写生成的内容[4 (https://arxiv.org/html/2605.29055#bib.bib48)]。然而,这两类通常作为单次校正应用,并未利用先前交互的累积上下文。

本文通过将幻觉缓解嵌入持久记忆架构来解决这一空白。基于[11 (https://arxiv.org/html/2605.29055#bib.bib49)]中讨论的多智能体框架——该框架针对提示注入鲁棒性——我们将目标转向事实可靠性。我们在现有的四维评估框架[9 (https://arxiv.org/html/2605.29055#bib.bib65)]中增加了第五个KPI——OSR(可观测性评分比率),明确衡量每个智能体暴露了多少与事实相关的推理,并检查聚合评分中可观测性的加权对整体缓解的影响。我们还探讨了通过连续记忆系统(CMS)将受HOPE启发的嵌套学习机制[3 (https://arxiv.org/html/2605.29055#bib.bib1)]应用于幻觉缓解(除了提示注入之外)的适用性。CMS在提示间维护中期和长期记忆层,允许智能体重用语义相似的先前响应,而不是每次调用都从零开始调用底层模型。

最终系统在一个包含310个提示的混合基准上进行评估,涵盖两种风险概况:现实认知不确定性问题,其中校准良好的智能体应回避而非编造;以及虚构诱导压力测试提示,积极迫使管道按需产生幻觉。这种不对称设计是有意的:通过将第一阶段智能体配置为最大随机性的生成器,不含任何回避指令,我们确保管道面临真实的幻觉负载,使得下游审查阶段的校正价值可直接测量。

第2节 (https://arxiv.org/html/2605.29055#S2)描述了由OFP编排的三阶段管道及CMS配对。第3节 (https://arxiv.org/html/2605.29055#S3)将工作置于更广泛的幻觉防御和记忆增强LLM系统文献中。第4节 (https://arxiv.org/html/2605.29055#S4)详细介绍了嵌套学习架构和语义缓存实现。第5节 (https://arxiv.org/html/2605.29055#S5)定义了基准、KPI和THS公式。第6节 (https://arxiv.org/html/2605.29055#S6)报告了实证结果,第7至11节 (https://arxiv.org/html/2605.29055#S7)讨论了含义和局限性。所有首字母缩写在第5节 (https://arxiv.org/html/2605.29055#S5)中正式定义。

## 2 架构概述

该架构在先前的[11 (https://arxiv.org/html/2605.29055#bib.bib49)]中已有详细描述,此处为完整性进行总结。图1 (https://arxiv.org/html/2605.29055#S2.F1)和图2 (https://arxiv.org/html/2605.29055#S2.F2)分别显示了由OFP编排的三阶段管道和CMS配对。

#### 每个智能体的LLM骨干

所有四个智能体通过Ollama运行Llama 3.1(llama3.1:latest),通过推理参数和系统提示进行区分。FrontEndAgent(第1阶段,temp=1.0,top-p=0.99,ctx=8192)被故意配置为弱、高随机性的生成器:其系统提示指示它以完全自信的方式回答,即使外推也要提供具体细节,并避免所有免责声明——最大化FCD并最小化FDF/ECS,以创建可测量的幻觉基线。SecondLevelReviewer(第2阶段,temp=0.1,top-p=0.9,ctx=8192)是主要校正器:它检测无依据声明,用谨慎措辞替换,并返回三个结构化字段:utterance,whisper_context,whisper_value。ThirdLevelReviewer(第3阶段,temp=0.05,top-p=0.85,ctx=8192)是最终事实性执行者,仅返回干净的面向用户的文本,不含元数据或内部推理。KPI评估器(第4个智能体,temp=0.0,top-p=0.8,ctx=8192)独立于管道运行,并以严格JSON格式返回FCD、FGR、FDF、ECS,取值范围为[0,1]。温度梯度(1.0 → 0.1 → 0.05 → 0.0)编码了设计意图:第一阶段最大创造性自由,下游逐步收紧事实控制,最终完全确定性评估。

#### OFP

开放楼层协议(OFP)[16 (https://arxiv.org/html/2605.29055#bib.bib35),5 (https://arxiv.org/html/2605.29055#bib.bib5)]是一种用于智能体系统的开放互操作性标准,它编排跨管道智能体的消息流,并允许KPI评估器观察完整轨迹而不参与决策路径,使智能体间边界明确并支持可重现日志记录。

#### 三个阶段管道的理由

选择三个活跃管道智能体反映了实例化本研究评估的不同功能角色所需的最小架构:生成器(FrontEndAgent)、校正器(SecondLevelReviewer)和事实性执行者(ThirdLevelReviewer)。每个阶段对应一个定性不同的任务,并在不同的温度制度(1.0 → 0.1 → 0.05)下运行,编码了从最大随机性到严格事实控制的有意递进。第四个管道智能体要么复制执行者功能——在第三阶段已可见的U形THS轨迹中产生递减收益——要么需要定义本研究当前KPI框架未提示的新角色。KPI评估器按计数是第四个智能体,但它位于缓解路径之外,作为只读观察者,保护评估的完整性。未来工作可以探索额外阶段,但三个阶段足以证明渐进式缓解和本研究目标中的权衡。

用户FrontEndAgentLlama 3.1SecondLevelReviewerLlama 3.1ThirdLevelReviewerLlama 3.1KPI评估器 — Llama 3.1,temp = 0.0FCD·FGR·FDF·ECS·OSR → THS(5种权重配置)请求响应预览最终

图1:基于OFP的多智能体管道。用户提交提示(OFP_REQUEST);FrontEndAgent生成初始响应(OFP_RESPONSE);SecondLevelReviewer对其进行净化(OFP_REVIEW);ThirdLevelReviewer交付最终输出(OFP_FINAL)。KPI评估器(Llama 3.1,temperature = 0.0)观察所有输出以计算FCD、FGR、FDF、ECS和OSR,并聚合为THS,涵盖五种权重配置。

FrontEndAgentSecondLevelReviewerThirdLevelReviewerMTMLRULTMLFUconsol.sem. cache查询(τ=0.87)MTMLRULTMLFUconsol.sem. cache查询(τ=0.87)MTMLRULTMLFUconsol.sem. cache查询(τ=0.87)MTM:快速重用近期模式 LTM:稳定重复模式 固化:MTM→LTM(LFU)

图2:智能体-CMS配对。每个管道智能体配备一个连续记忆系统,包含中期记忆(MTM,LRU逐出)用于近期提示,以及长期记忆(LTM,LFU逐出)用于频繁重复模式。定期固化将热MTM条目提升到LTM;语义缓存查找使用余弦相似度阈值τ=0.87。

## 3 相关工作

AI生成内容的可靠性位于可信AI和事实依据研究的交叉点。文献从两个轴解决这一挑战:形式化幻觉类型的概念框架,以及检测或防止部署系统中不可靠输出的实际防御。

Liu及其合作者[15 (https://arxiv.org/html/2605.29055#bib.bib11)]开发了对抗攻击类别分类,其类型学同样适用于事实可靠性挑战,其中捏造声明通过类似修辞机制引入。

Lee和Tiwari[13 (https://arxiv.org/html/2605.29055#bib.bib45)]证明,对抗提示可以在多智能体系统中的互连智能体间自我复制——他们将此现象称为提示感染——即使智能体不公开共享通信,也会悄然传播。虽然他们的威胁模型针对恶意外部输入而非内部生成的无依据声明,但传播机制在结构上是相同的:一个智能体不加批判地接受的内容未被验证地传递到下游。这种架构漏洞与幻觉缓解直接相关:第一阶段生成的无依据声明可能被后续审阅者接受并放大而非纠正,这恰恰是本研究三阶段管道旨在预防的失败模式。

在防御方面,提出了若干策略以提高基于LLM系统的事实可靠性。一类方法在输入层面操作,试图在提示到达模型之前检测并过滤不可靠或误导性的提示。例如,PromptShield[12 (https://arxiv.org/html/2605.29055#bib.bib9)]提出了一个预处理包装器,使用分类器和启发式规则分析输入内容;虽然其最初目标是指令注入,但相同的模式检测架构适用于旨在引出捏造响应的提示。相关工作使用密码学或结构机制建立管道不同部分之间的可验证信任边界[18 (https://arxiv.org/html/2605.29055#bib.bib46)],这一原则指导了本研究使用的明确智能体边界设计。第二类方法使用辅助模型评分生成内容的可靠性,要么通过测量相对于参考分布的困惑度,要么通过应用基于LLM的判断器在推理时评估事实依据[6 (https://arxiv.org/html/2605.29055#bib.bib2)]。最近的不确定性量化工作表明,结合黑盒、白盒、LLM判断器和集成评分器可以显著提高实用设置中幻觉检测的可靠性[4 (https://arxiv.org/html/2605.29055#bib.bib48)]。Gosmar和Dahl[8 (https://arxiv.org/html/2605.29055#bib.bib53)]提出了哨兵智能体作为多智能体系统的持续监控层,提供异常检测能力,补充了本研究的基于管道的缓解方法。

Autogen风格框架[1 (https://arxiv.org/html/2605.29055#bib.bib43)]表明,多个具有特定角色的智能体可以被编排,在呈现给用户之前对候选响应进行批判——这种模式被[7 (https://arxiv.org/html/2605.29055#bib.bib44)]应用于幻觉缓解,其中一个智能体生成,第二个审阅,第三个执行事实性约束。

HOPE架构[3 (https://arxiv.org/html/2605.29055#bib.bib1)]中提出的嵌套学习框架代表了关于记忆和推理如何交互的更激进的重构。HOPE不将记忆视为由模型查询的独立数据库,而是将记忆视为一个连续的状态,随时间动态更新和固化,灵感来自人类记忆机制如海马体固化和突触可塑性。虽然这一提议很大程度上仍是理论性的,但它提供了一个概念透镜,用于解释试图融入持久记忆的基于LLM系统的架构扩展。

本工作位于这些研究线索的交汇点。它认真对待多智能体范式,采用显式的幻觉案例分类,并将受HOPE启发的嵌套学习机制整合到智能体本身中。它不声称实现HOPE的全部愿景,而是通过一种基于缓存的实用方法近似其某些原则,该方法可以在不修改模型权重的情况下在现有推理引擎上实现。通过这样做,它旨在提供具体演示,展示如何将嵌套学习的思想转化为操作化框架,提高事实可靠性而不影响系统性能或效率。

相似文章

幻觉即利用:携带证据的多模态智能体

arXiv cs.AI

本文形式化了多模态智能体中的幻觉到动作转换,并提出了携带证据的智能体(ECA),它使用受限验证器仅授权安全的工具调用,在200个任务的流水线上实现了0%的不安全动作率。

误判鸿沟:当记忆投毒在自主AI系统中看似模型故障

arXiv cs.AI

本文识别了多智能体AI流水线中的一种结构性缺陷,即记忆层攻击可能被误判为模型失调,形式化定义了语义规范漂移(SND),并提出反事实组合测试(Counterfactual Composition Testing)和持久记忆信息流控制(Memory-Persistent Information-Flow Control)作为防御措施。

受人类启发的LLM智能体记忆架构

arXiv cs.AI

微软研究人员提出了一种受生物学启发的LLM智能体记忆架构,该架构结合了睡眠阶段巩固和基于干扰的遗忘机制,以高效管理持久性记忆。

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。

个人代理中长期记忆与可靠性的挑战

Reddit r/ArtificialInteligence

作者分享了构建持续性使用的个人健康代理所面临的挑战,重点讨论了长期记忆管理和可靠性问题,包括在综合多个来源的数据时出现的幻觉现象。