EASE-TTT: 面向长上下文问答的证据对齐选择性测试时训练

arXiv cs.CL 论文

摘要

提出 EASE-TTT,一种测试时训练框架,将自适应与检索到的证据对齐,以提高较小语言模型在长上下文问答中的性能。

arXiv:2606.06906v1 公告类型:新 摘要:长上下文问答(QA)即使输入中已包含包含答案的证据,对较小语言模型来说仍然具有挑战性。现有的上下文内检索方法会定位并暴露与问题相关的候选证据片段,但它们仅停留在输入层面的证据暴露,而不去调整查询端的注意力参数——这些参数控制着模型如何在完整上下文位置上分配注意力。相比之下,轻量级的测试时自适应方法,如仅查询测试时训练(qTTT),由于它们通用的片段级自监督目标无法识别哪些上下文位置支持当前答案,因此未能解决证据定位问题。在本文中,我们提出了证据对齐选择性测试时训练(EASE-TTT),这是一种基于上下文内检索增强的测试时训练框架,它将选定的证据片段转化为其标记位置上的软注意力监督目标。EASE-TTT 不是用检索到的片段替换完整上下文,而是利用生成的注意力目标来指导查询端自适应,让自适应后的模型从原始完整上下文中生成最终答案。在六项 LongBench QA 任务和三个小型仅解码器语言模型上的实验表明,EASE-TTT 在完整上下文推理、仅检索基线方法和 qTTT 中取得了最强的宏平均性能,支持了长上下文问答中的证据对齐测试时自适应。
查看原文
查看缓存全文

缓存时间: 2026/06/08 09:21

# EASE-TTT: 面向长上下文问答的证据对齐选择性测试时训练
来源:https://arxiv.org/html/2606.06906
Xiaopeng Yuan¹, Zebin Wang², Suwen Wang³, Zongxin Yang², Haohan Wang¹, Yushun Dong⁴
¹伊利诺伊大学厄巴纳-香槟分校 ²哈佛大学 ³Brion, ASML US LP ⁴佛罗里达州立大学

###### 摘要

即使答案所依据的证据已经存在于输入中,长上下文问答仍对较小的语言模型构成挑战。现有的上下文内检索方法可以定位并暴露与问题相关的候选证据块,但它们仅在输入层面暴露证据,并未调整控制模型在整个上下文位置上分配注意力的查询侧注意力参数。相比之下,轻量级的测试时适应方法(如仅查询测试时训练,qTTT)由于使用通用的跨度级自监督目标,无法识别哪些上下文位置支持当前答案,因此无法解决证据定位问题。本文提出**证据对齐的选择性测试时训练**(EASE-TTT),一个上下文内检索增强的测试时训练框架,该框架将选中的证据块转换为一个覆盖其令牌位置的软注意力监督目标。EASE-TTT不直接用检索到的块替换整个上下文,而是利用生成的注意力目标来引导查询侧适应,适应后的模型从原始完整上下文中生成最终答案。在六个LongBench问答任务和三个小型解码器专用语言模型上的实验表明,EASE-TTT在全上下文推理、仅检索基线和qTTT等方法中实现了最强宏平均性能,支持了长上下文问答中的证据对齐测试时适应。

---

## 1 引言

大型语言模型在扩展其上下文窗口方面取得了快速进展,使其能够处理包含数万甚至数十万令牌的输入(Ding等人,2024(https://arxiv.org/html/2606.06906#bib.bib23);Team等人,2024(https://arxiv.org/html/2606.06906#bib.bib24);Chen等人,2024(https://arxiv.org/html/2606.06906#bib.bib25))。然而,更长的上下文窗口并不一定能带来更好的长上下文问答性能。在许多长上下文问答任务中,答案所依据的证据已经存在于输入中,但模型仍然无法正确访问它(Liu等人,2024(https://arxiv.org/html/2606.06906#bib.bib2);Hsieh等人,2024(https://arxiv.org/html/2606.06906#bib.bib26);Modarressi等人,2025(https://arxiv.org/html/2606.06906#bib.bib27))。对于较小的语言模型来说,这个问题尤其重要,因为它们在充满干扰项的长上下文中维持可靠证据使用的能力往往更有限(Gao等人,2026(https://arxiv.org/html/2606.06906#bib.bib33))。在这种情况下,瓶颈不仅仅是模型能否容纳上下文,而是模型能否可靠地访问并优先处理当前问题所需的证据。

参考图注

**图1:EASE-TTT的动机。** 纯检索和提示编辑方法在输入层面暴露候选证据,但并未调整模型的上下文访问行为。测试时训练方法可以在推理时调整模型参数,但其目标通常不与问题相关证据明确对齐。EASE-TTT通过使用检索到的证据来引导测试时适应,弥合了这一差距。

解决这个问题的一个自然方法是在输入上下文内执行检索。上下文内检索方法将长输入分割成块,从同一上下文中定位候选证据块,并使用选中的块构建更短或更聚焦的输入(Jiang等人,2024(https://arxiv.org/html/2606.06906#bib.bib28);Li等人,2023(https://arxiv.org/html/2606.06906#bib.bib29);Nair等人,2023(https://arxiv.org/html/2606.06906#bib.bib30))。这些方法不依赖于外部语料库,而是将给定的长上下文本身作为检索源。当选中的块包含足够的生成答案所需证据时,它们是有效的。然而,它们通常仅将检索视为一种输入层面的操作:选中的块被用来替换、缩短或前置到原始上下文(Sheng等人,2025(https://arxiv.org/html/2606.06906#bib.bib63);Liskavets等人,2025(https://arxiv.org/html/2606.06906#bib.bib64);Wang等人,2023(https://arxiv.org/html/2606.06906#bib.bib65);Chirkova等人,2025(https://arxiv.org/html/2606.06906#bib.bib66))。结果,模型的参数和上下文访问行为保持不变。此外,硬性块选择可能会丢弃有用的周围信息,这在长上下文问答中是有风险的,因为证据可能分布在输入的多个部分(Sarthi等人,2024(https://arxiv.org/html/2606.06906#bib.bib31);Tian等人,2025(https://arxiv.org/html/2606.06906#bib.bib32);Saad-Falcon等人,2024(https://arxiv.org/html/2606.06906#bib.bib50);Luo等人,2025(https://arxiv.org/html/2606.06906#bib.bib51);Wang等人,2024(https://arxiv.org/html/2606.06906#bib.bib52))。

参考图注

**图2:EASE-TTT概述。** 给定一个长上下文和一个问题,EASE-TTT选择与问题相关的证据块,将其转换为覆盖全上下文位置的软注意力目标,并在测试时更新查询侧LoRA适配器。适应后的模型从原始完整上下文中生成答案。

这一局限性表明,证据访问不应仅仅被视为推理时的输入选择问题。特别是对于较小的模型,长上下文下的失败可能反映了模型当前的上下文访问行为与问题所需证据之间的不匹配(Zhu等人,2025(https://arxiv.org/html/2606.06906#bib.bib53);Lee等人,2025(https://arxiv.org/html/2606.06906#bib.bib60);An等人,2024(https://arxiv.org/html/2606.06906#bib.bib61);Li等人,2024b(https://arxiv.org/html/2606.06906#bib.bib62))。测试时适应为解决这种不匹配提供了一种自然方式,因为它允许模型在推理时为每个测试实例改变其行为。在这项工作中,我们专注于测试时训练(TTT),一种基于梯度的测试时适应形式,它执行实例特定的参数更新(Sun等人,2020(https://arxiv.org/html/2606.06906#bib.bib34);Wang等人,2020(https://arxiv.org/html/2606.06906#bib.bib35);Hardt和Sun,2024(https://arxiv.org/html/2606.06906#bib.bib36);Akyürek等人,2024(https://arxiv.org/html/2606.06906#bib.bib37))。最近的仅查询测试时训练进一步表明,推理时的计算不一定要花在额外的生成令牌上;它也可以用于查询侧适应,使模型能够改变其在给定长上下文上分配注意力的方式(Bansal等人,2025(https://arxiv.org/html/2606.06906#bib.bib12))。这种视角对于长上下文问答尤其相关,因为证据可能已经存在于输入中,但模型未能充分优先处理它。然而,现有的测试时适应目标通常由通用的自监督、任务级别或检索导向信号驱动,而不是直接的证据定位监督,后者能够明确指出哪些全上下文位置支持当前答案(Zhang等人,2024(https://arxiv.org/html/2606.06906#bib.bib8);Feng等人,2026(https://arxiv.org/html/2606.06906#bib.bib38);Jeong等人,2023(https://arxiv.org/html/2606.06906#bib.bib48);Sun等人,2026(https://arxiv.org/html/2606.06906#bib.bib49))。这些目标可以使模型适应当前输入,但它们并不明确指示哪些上下文位置支持当前答案。因此,上下文内证据定位与测试时适应之间仍存在差距:上下文内检索可以定位可能相关的块,而查询侧测试时训练可以适应模型行为,但现有方法并未直接将问题相关证据用作实例特定适应的监督。

我们提出**证据对齐的选择性测试时训练**(EASE-TTT),一个上下文内检索增强的测试时训练框架,它将对问题相关的证据转化为长上下文适应的直接监督。给定一个长上下文问答实例,EASE-TTT首先在输入上下文中选择与问题最相关的块。它不是用这些块替换原始上下文,而是构建一个软注意力目标,该目标将更大的概率质量分配给选中的证据位置,同时保留其余上下文上的非零质量。在测试时,EASE-TTT在冻结基础模型的情况下,更新轻量级的查询侧适配器。适应后,模型从原始完整上下文中生成答案。这种设计将检索从一种输入过滤机制转变为实例特定适应的证据对齐监督信号。

#### 我们的贡献。

- • 我们识别出证据使用失败是较小语言模型在长上下文推理中的一个关键瓶颈:相关证据可能存在于输入中,但在充满干扰项的上下文中模型仍无法使用它。
- • 我们提出EASE-TTT,一个上下文内检索增强的测试时训练框架,它将问题相关块转化为查询侧适应的软监督。与纯检索方法不同,EASE-TTT不用块替换上下文;而是用它们来引导适应,同时保留全上下文生成。
- • 我们在多个小型语言模型上对长上下文问答基准进行了评估。我们的结果表明,EASE-TTT在全上下文推理、仅检索基线和qTTT方法上提升了答案质量,进一步的分析证明了证据选择、软注意力监督和测试时训练的效果。

---

## 2 相关工作

**上下文内检索与证据选择。** 长上下文问答的一种常见方法是在生成前定位输入上下文中与问题相关的证据(Li等人,2024a(https://arxiv.org/html/2606.06906#bib.bib54);Qiu等人,2025(https://arxiv.org/html/2606.06906#bib.bib55);Lee等人,2024(https://arxiv.org/html/2606.06906#bib.bib56))。与从外部语料库检索段落的传统检索增强生成不同(Lewis等人,2020(https://arxiv.org/html/2606.06906#bib.bib57)),上下文内检索将给定的长输入本身视为检索源(Qian等人,2024(https://arxiv.org/html/2606.06906#bib.bib58);Taguchi等人,2025(https://arxiv.org/html/2606.06906#bib.bib59))。先前的工作已经探索了相关策略,如提示压缩、上下文剪枝、基于话语的文档选择和层次化检索,以减少干扰项并向模型暴露有用证据(Jiang等人,2023(https://arxiv.org/html/2606.06906#bib.bib39);Zhao等人,2024(https://arxiv.org/html/2606.06906#bib.bib43);Yoon等人,2024(https://arxiv.org/html/2606.06906#bib.bib44))。效率导向的变体也依赖于在生成前选择、压缩或重新组织输入段落(Xu等人,2023(https://arxiv.org/html/2606.06906#bib.bib40);Pan等人,2024(https://arxiv.org/html/2606.06906#bib.bib41))。然而,这些方法主要将证据访问视为一种输入层面的操作:检索到的块被用来替换、缩短、重新排序或前置到原始上下文。结果,模型的参数和上下文访问行为保持不变。当答案所依据的证据已经存在于上下文窗口中,但模型仍然无法可靠访问时,这种限制就凸显了。此外,硬性选择可能引入新的瓶颈:选中的块可能遗漏有用的周围上下文,将分布在远距离区域的证据分离,或者移除理解检索到的跨度所需的信息(Günther等人,2024(https://arxiv.org/html/2606.06906#bib.bib42);Tian等人,2025(https://arxiv.org/html/2606.06906#bib.bib32))。因此,检索和提示编辑可以改变模型看到的内容,但它们不会改变模型如何关注和使用全上下文中的证据。

**测试时训练。** 测试时训练(TTT)通过使用从测试输入本身衍生的自监督信号更新参数,在推理时改善模型行为(Hu等人,2025(https://arxiv.org/html/2606.06906#bib.bib15);Zhang等人,2025(https://arxiv.org/html/2606.06906#bib.bib6))。这些方法已在分布偏移、域适应和推理时适应等场景中得到探索,在这些场景中,固定的预训练参数可能不足以处理手头的输入(Hübotter等人,2025(https://arxiv.org/html/2606.06906#bib.bib9);Agarwal等人,2025(https://arxiv.org/html/2606.06906#bib.bib10);Li等人,2025(https://arxiv.org/html/2606.06906#bib.bib11))。在长上下文场景中,TTT尤其相关,因为每个测试实例可能展示出不同的局部结构、证据布局和干扰模式(Muhtar等人,2024(https://arxiv.org/html/2606.06906#bib.bib14))。然而,仅靠参数级别的适应并不能解决证据访问问题,除非训练信号与当前问题所需的证据对齐。因此,将TTT应用于长上下文并非易事:适应信号通常是局部的、部分的且可能包含噪声,而广泛的参数更新可能引入不稳定性或不必要的计算开销(Su等人,2023(https://arxiv.org/html/2606.06906#bib.bib7);Zhang等人,2024(https://arxiv.org/html/2606.06906#bib.bib8))。这些挑战使得针对性的、证据对齐的测试时训练对于长上下文推理变得重要。仅查询测试时训练(qTTT)将更新范围缩小到自注意力中的查询投影,而不是适应整个模型(Bansal等人,2025(https://arxiv.org/html/2606.06906#bib.bib12))。然而,qTTT仍然依赖通用的自监督目标,而不是来自问题相关证据的显式监督。结果,它可以更新查询侧注意力参数,但它没有指明哪些全上下文位置应该引导更新。这造成了长上下文问答中的不匹配:模型被适应了,但适应并未锚定在回答问题所需的证据上。

**差距与动机。** 这两条研究路线针对长上下文证据访问问题的不同方面,但两者都无法单独解决它。上下文内检索和提示编辑在输入层面操作:它们可以定位或暴露候选证据,但不会改变模型的上下文访问行为。当相关内容已经在上下文窗口内但模型无法关注到时,这就不够了。仅查询测试时训练在参数层面操作:它可以适应查询侧注意力行为,但其目标不与当前问题所需的证据位置相关联。因此,现有方法要么在不适应模型的情况下选择证据,要么在没有显式证据引导下适应模型。我们的方法通过使用检索到的证据块(而非替换全上下文)作为查询侧测试时训练的监督,弥合了这一差距。最终答案仍从原始完整上下文中生成,而检索到的证据则引导模型如何更新其注意力行为。

相似文章

ACC:编译智能体轨迹以实现长上下文训练

arXiv cs.CL

ACC将多轮智能体轨迹转化为长上下文问答对,用于训练LLMs在无需额外标注的情况下进行长程推理,在MRCR和GraphWalks基准测试上取得了显著提升,同时保持通用能力。

MemTrain:自监督上下文记忆训练

arXiv cs.CL

MemTrain 提出了一种自监督训练框架,通过在维基百科语料上使用掩码重建和中间记忆召回代理任务,增强 LLM 智能体的上下文记忆能力,在下游记忆密集型 QA 基准上取得了高达 17.67 个百分点的提升。