ContextGuard：语言模型中上下文学习的结构化自我审计

arXiv cs.CL 2026/05/27 04:00 论文
摘要
介绍ContextGuard，一个结构化自我审计框架，通过将模型自我评估分解为确认和不确定类别并应用针对性修订来改进语言模型上下文学习。在CL-Bench基准测试中，Qwen3.5-4B的任务解决率从9.64%提升至13.85%。
arXiv:2605.26827v1 公告类型：新摘要：最近的基准测试显示，尽管大语言模型（LLMs）具有强大的推理能力，但在忠实应用复杂上下文知识方面仍存在困难。这些失败通常并非全面的推理崩溃：在上下文丰富的任务中，模型可能遵循中心推理路径，却忽略了外围、持久或格式敏感的要求。
查看原文
查看缓存全文
缓存时间: 2026/05/27 09:11
# ContextGuard: 语言模型中上下文学习的结构化自审计框架 来源: https://arxiv.org/html/2605.26827 Hongbo Jin1Chi Wang211footnotemark:1Haoran Tang1Zhongjing Du1 Xu Jiang1Jingqi Tian3Qiaoman Zhang1Jiayu Ding1 1北京大学2华南理工大学3清华大学 ###### 摘要 最近的基准测试表明，尽管大语言模型\(LLMs\)具备强大的推理能力，但在忠实应用复杂上下文知识方面仍然存在困难。这些失败往往并非整体推理能力的崩溃：在上下文丰富的任务中，模型可能遵循主要推理路径，却遗漏了外围、持续存在或格式敏感的要求。通用的自我优化在应对这种情况时效果不佳，因为无约束的修改可能在修复一个缺陷的同时，意外破坏已经满足的约束。为解决这一问题，我们引入了ContextGuard，一种结构化自审计框架，用于上下文学习中的受保护目标修订。ContextGuard将模型的自我评估分解为已确认约束、已确认事实、可能遗漏的信息和可能错误的内容。在类别条件专家信号的引导下，它编辑不确定区域，同时通过显式保护约束保留已验证的内容。在CL-Bench（一个具有密集指定任务要求的长上下文基准测试）上的实验表明，ContextGuard在Qwen3.5-4B上将整体任务解决率从9.64%提升至13.85%（+4.21个百分点），优于通用优化基线，并在格式、流程、计算、条件规则和风格/角色要求方面减少了失败。 ContextGuard: 语言模型中上下文学习的结构化自审计框架 Hongbo Jin1††thanks:同等贡献Chi Wang211footnotemark:1Haoran Tang1Zhongjing Du1Xu Jiang1Jingqi Tian3Qiaoman Zhang1Jiayu Ding1††thanks:通讯作者1北京大学2华南理工大学3清华大学 ## 1 引言 近年来，大语言模型\(LLMs\)在数学问题求解、代码生成和智能体规划等推理密集型领域取得了显著进展Singhet al.\(2026 (https://arxiv.org/html/2605.26827#bib.bib1)\)。测试时推理缩放Jinet al.\(2026a (https://arxiv.org/html/2605.26827#bib.bib31)\)和强化学习进一步提升了多步推理能力Wanget al.\(2023 (https://arxiv.org/html/2605.26827#bib.bib3)\); Guoet al.\(2025 (https://arxiv.org/html/2605.26827#bib.bib2)\); Jinet al.\(2026b (https://arxiv.org/html/2605.26827#bib.bib25),c (https://arxiv.org/html/2605.26827#bib.bib26)\)。然而，尽管取得了这些进展，现实世界应用所需的一项基本能力仍然发展不足：即从推理时提供的复杂上下文知识中学习并忠实应用的能力。在实际部署中，模型必须在越来越多的上下文丰富环境Baiet al.\(2024 (https://arxiv.org/html/2605.26827#bib.bib4)\)（如企业规章手册、法律法规和长交互历史）中运作，成功与否取决于能否准确使用新提供的信息，而非仅仅依赖静态的预训练知识。最近的基准测试如CL-BenchDouet al.\(2026 (https://arxiv.org/html/2605.26827#bib.bib5)\)揭示了这一局限：即使是前沿推理模型在上下文学习任务上的表现也令人惊讶地差，最强模型的任务解决率不到24%。挑战不仅仅在于理解长上下文，还在于同时满足许多上下文要求。CL-Bench通过31,607个二元评估规则对此进行操作，每个任务平均有16.6个，最多114个标准；只有当每个相关要求都满足时，任务才被视为正确；只有当每个相关要求都满足时，任务才被视为正确。因此，模型可能解决了主要推理目标，但仍然因遗漏的约束、格式规则、角色指令或上下文异常而失败。

参见说明图1: 在代表性CL-Bench示例上，普通自我优化与ContextGuard的案例比较。基线草稿包含一些真实错误（红色）和正确内容（绿色）。通用优化成功修复了一些错误，但也引入了通过错误重写先前正确内容（橙色）导致的修订回归。相比之下，ContextGuard明确区分修复目标和受保护的正确区域，能够在保留已验证约束和事实（蓝色）的同时进行选择性修正。

这种要求结构改变了有效的推理时方法必须做的事情。在Qwen3.5-4B基线输出中，48.3%的失败任务遗漏不超过三个标准，72.6%遗漏不超过五个。这些接近失败表明模型通常覆盖了中心答案，但遗漏了分散的要求。通用自我优化Madaanet al.\(2023 (https://arxiv.org/html/2605.26827#bib.bib10)\); Shinnet al.\(2023 (https://arxiv.org/html/2605.26827#bib.bib11)\)可以部分修复此类错误，但无约束的修改也可能损害先前满足的约束。在严格的全要求评估下，这种修订回归可能抵消修复其他错误的收益。现有的推理导向方法提升了深思熟虑的深度Yaoet al.\(2023 (https://arxiv.org/html/2605.26827#bib.bib9)\); Guoet al.\(2025 (https://arxiv.org/html/2605.26827#bib.bib2)\)，但在修订过程中并未明确保留已正确的约束。在这项工作中，我们提出了ContextGuard，一个用于受保护目标编辑的结构化自审计框架。ContextGuard将生成的内容分解为已确认事实、已验证约束、遗漏要求和可能错误的推理，然后在锚定已验证内容的同时修订不确定区域。类别条件专家信号进一步针对结构化失败，如格式、工作流、规则忠实性和数值比较错误。我们在CL-Bench上跨四个类别的上下文学习任务评估ContextGuard：领域知识推理、规则系统应用、程序性任务执行和经验发现与模拟。在Qwen3.5-4B上，ContextGuard将整体任务解决率从9.64%提升至13.85%（+4.21个百分点），在所有任务类别上均有一致提升。进一步分析显示，在多种结构化要求类型（包括格式、流程协调、验证、条件规则和风格/角色约束）上均有改进。我们的贡献总结如下：

- •我们识别了约束密集型上下文学习中的修复-保存挑战：有效的修订必须修复遗漏的要求，同时不破坏已满足的约束。
- •我们提出了ContextGuard，一个结构化自审计框架，通过认知分层、类别条件专家信号和受保护的修订，将修复目标与受保护约束分离。
- •我们在CL-Bench上展示了跨多个上下文学习类别的实质性改进，并提供了关于接近失败行为、修复/回归动态以及多种上下文要求类型的要求级分析。

## 2 相关工作

与传统In-Context Learning（主要从少量示例中学习任务模式Brownet al.\(2020 (https://arxiv.org/html/2605.26827#bib.bib12)\)）不同，Context Learning要求模型获取并忠实应用推理时提供的复杂、通常新颖的上下文知识Douet al.\(2026 (https://arxiv.org/html/2605.26827#bib.bib5)\)。这一能力对于模型必须遵守特定企业手册、法律法规或程序性工作流的现实应用至关重要，而这些知识超出了其参数化知识范围。最近在CL-Bench等基准上的评估Douet al.\(2026 (https://arxiv.org/html/2605.26827#bib.bib5)\)揭示了一个显著差距：即使是具有强大通用推理能力的最先进模型Singhet al.\(2026 (https://arxiv.org/html/2605.26827#bib.bib1)\); Guoet al.\(2025 (https://arxiv.org/html/2605.26827#bib.bib2)\)也经常在上下文特定约束上挣扎。虽然长上下文大语言模型在信息检索方面取得了进展，但成功解决上下文学习任务需要的不仅仅是表面层面的检索Hsiehet al.\(2024 (https://arxiv.org/html/2605.26827#bib.bib13)\)；它要求在生成和修订过程中忠实使用提供的约束。我们的工作基于这些见解，引入了一种结构化审计机制来监控上下文要求，并将修订约束为上下文忠实的输出。这一观点不同于标准的长上下文检索和推理时间缩放。检索导向方法改善了对相关信息的接触，推理导向方法增加了深思熟虑，但两者都未直接解决修订目标：在修复未满足要求的同时保留已满足的上下文要求。更多相关工作在附录A (https://arxiv.org/html/2605.26827#A1)中讨论。

## 3 方法

我们提出ContextGuard，一个旨在提升语言模型中上下文学习的结构化自审计框架。与对整个响应进行无约束重写的传统自我优化方法不同，ContextGuard通过将可靠内容与不确定区域分离，并在保护约束下进行目标修订，显式地在推理时建模上下文忠实性。

参见说明图2: ContextGuard概览。给定从输入上下文和任务说明生成的初始草稿，ContextGuard执行结构化自审计，将模型判断划分为四个认知类别：(A) 已确认约束，(B) 已确认事实/数据，(C) 可能遗漏的信息，以及 (D) 可能错误的推理或内容。类别条件专家信号随后合并为修复集和保护集，从而在保留已验证约束和事实的同时进行选择性修正。

图2 (https://arxiv.org/html/2605.26827#S3.F2) 展示了整体流程。给定一个上下文学习任务，框架首先生成一个初始草稿，然后进行结构化自审计，以显式地将可靠内容与不确定或可能有问题区域分离。基于审计结果和类别条件专家信号，ContextGuard最终执行受保护修订，选择性编辑不确定内容，同时保留已验证信息。

### 3.1 概述

给定上下文\(C\)和任务查询\(q\)，语言模型首先生成初始响应：
y\(0\)=fθ\(C,q\)， (1)
其中\(f_θ\)表示底层语言模型。ContextGuard随后对生成的响应执行结构化审计：
A\(y\(0\)\)→{QA,QB,QC,QD}， (2)
其中四个子集QA、QB、QC、QD对应于模型自身输出中沿两个维度（正确性和确定性）的不同认知区域。对于任务类型\(t\)，ContextGuard还可能激活一个类别条件专家信号：
St\(C,q,y\(0\)\)→(Ot,Et)， (3)
其中Ot表示已满足的专家要求，Et表示检测到的专家问题。根据类别不同，St要么实现为单独的检查器，要么实现为整合到结构化审计中的专家标准。基于审计结果和专家信号，框架构建一个结构化反馈信号，包括包含潜在有问题内容的修复集F和包含应保持不变的已验证信息的保护集P。最终响应通过受约束修订生成：
y∗=Rguarded\(C,q,y\(0\),F,P\)， (4)
其中Rguarded表示受保护的修订过程。ContextGuard背后的核心思想是，有效的自我修正需要区分“什么应该被修订”和“什么必须被保留”。在密集的全要求评估下，这种区分是目标的一部分，而不是保守解码偏好：有用的修订应该增加满足的要求数量，同时最小化对已通过要求的回归。

### 3.2 草稿生成

ContextGuard首先生成一个基于原始上下文和用户查询的初始草稿。此外，我们引入了一个轻量级提醒增强机制，在草稿生成期间显式地重新强调原始系统约束和最终任务指令。具体来说，我们附加一个从原始系统提示和任务请求构建的辅助提醒：
r=Reminder(s,q)， (5)
其中s表示原始系统指令。增强后的草稿生成变为：
yrem\(0\)=fθ\(C,q,r\)。 (6)

这种设计基于观察：在长输入中，全局指令和始终存在的约束相对于最终任务请求可能变得不那么突出。通过在生成前显式重新锚定关键上下文约束，模型更有可能在整个推理过程中保留任务要求。在实践中，提醒增强草稿为后续的结构化自审计和受保护编辑提供了更强大的修订起点。

### 3.3 结构化自审计

现有自我优化方法的一个关键局限性是，它们通常要求模型泛泛地“检查错误”，而不区分可靠内容和不确定区域。因此，修订过程经常重写已经正确的信息，并引入不必要的退化。为解决这个问题，ContextGuard引入了认知分层，一种结构化自审计机制，在修订前显式地将生成的响应分解为不同的语义置信区域。给定初始草稿\(y^{\(0\)}\)，模型执行结构化自我评估：
A\(y\(0\)\)=(QA,QB,QC,QD)， (7)
其中QA包含已确认的正确推理步骤和满足的约束，QB包含已验证的上下文数据和有依据的证据，QC代表可能遗漏的约束或不完整的覆盖范围，QD包含可能错误的推理、计算或结论。审计阶段输出一个结构化的JSON表示，显式地将可信区域与不确定区域分开。重要的是，QA和QB在修订期间被视为受保护区域，而QC和QD成为目标修正的候选区域。尽管审计框架是统一的，但不同的上下文学习类别表现出不同的失败模式。因此，ContextGuard根据任务类型调整专家标准。对于领域知识推理任务，审计主要关注格式和结构一致性、角色和角色遵循以及上下文适用性。程序性执行任务额外要求验证工作流排序、智能体协调、时序约束和门控条件。规则系统任务强调规则忠实性、异常处理、术语一致性和适用性条件。
ContextGuard：语言模型中上下文学习的结构化自我审计

相似文章

自巩固语言模型：从上下文中持续整合知识

面向智能体与多模态大语言模型的上下文感知强化学习

两者兼顾：针对大语言模型上下文完整性的互补自蒸馏方法

打破“拍马屁”循环：上下文饱和与多模型问责制如何摧毁工厂式护栏

CHILLGuard：面向细粒度中文大模型安全护栏的可扩展数据构建与模型感知偏好对齐

提交意见反馈