标签
本文识别了多智能体AI流水线中的一种结构性缺陷,即记忆层攻击可能被误判为模型失调,形式化定义了语义规范漂移(SND),并提出反事实组合测试(Counterfactual Composition Testing)和持久记忆信息流控制(Memory-Persistent Information-Flow Control)作为防御措施。
MemAudit 是一种针对记忆增强型 LLM 代理的事后审计框架,它通过结合反事实影响分数和结构异常检测来识别受污染的记忆,在现实场景中将攻击成功率从超过 70% 降低至 0%。