LLMs能否被约束在过往?通过基于回忆的提示改进知识截止
摘要
本文提出了基于回忆的提示策略(Self-Recall和Question-Recall),以提升LLM对知识截止的遵循能力,在反事实问题上优于现有方法,并引入多截止历史事件基准(MHEB)用于鲁棒性评估。
arXiv:2606.05804v1 公告类型:新
摘要:提示知识截止指示大语言模型(LLM)表现得如同指定截止日期之后的信息不可用一样。然而,先前的工作主要依赖于直接答案生成,当截止后的知识未被明确查询而仅与问题存在因果关联时,这种方法会遇到困难。为解决这一局限,我们提出了两种基于回忆的提示策略:Self-Recall(SR),要求模型重新陈述其截止约束;以及Question-Recall(QR),要求模型回忆在截止条件下有效的与问题相关的信息。在三个现有基准上,我们的方法优于直接答案提示和传统的逐步推理基线,在反事实问题上尤其有显著提升。为研究不同截止设置下的鲁棒性,我们进一步构建了多截止历史事件基准(MHEB),该基准在多个截止年份下评估同一问题。结果表明,知识截止性能随截止距离变化,而结合SR和QR始终获得最佳性能。
查看缓存全文
缓存时间: 2026/06/05 08:08
# 大型语言模型能否被约束到过去?通过基于回忆的提示改进知识截止
来源:https://arxiv.org/html/2606.05804
Michiro Asai, Ailiang Lin, Yu Kishimoto, Takao Obi, Satoshi Kosugi, Kotaro Funakoshi, Manabu Okumura
东京科学大学
\{asai,linailiang,ky,obi,kosugi,funakoshi,oku\}@lr\.first\.iir\.isct\.ac\.jp
###### 摘要
提示知识截止(Prompted knowledge cutoff)指示大型语言模型(LLM)表现得像指定截止日期之后的信息不可用一样。然而,先前的工作主要依赖于直接回答生成,当截止后知识没有被明确查询,而只是与问题存在因果关系时,这种方法会失效。为解决这一局限,我们提出了两种基于回忆的提示策略:自回忆(Self-Recall,SR),要求模型重新陈述其截止约束;以及问题回忆(Question-Recall,QR),要求模型回忆在截止条件下有效的、与问题相关的信息。在三个现有基准上,我们的方法优于直接回答提示和传统的逐步推理基线,在反事实问题上尤其表现出显著改进。为了研究不同截止设置下的鲁棒性,我们进一步构建了多截止历史事件基准(Multi-cutoff Historical Event Benchmark, MHEB),在多个截止年份下评估同一问题。结果表明,知识截止性能随截止距离变化,而组合使用SR和QR始终能取得最佳性能。
## 能否将LLM约束到过去?通过基于回忆的提示改进知识截止
Michiro Asai, Ailiang Lin, Yu Kishimoto, Takao Obi, Satoshi Kosugi, Kotaro Funakoshi, Manabu Okumura
东京科学大学
\{asai,linailiang,ky,obi,kosugi,funakoshi,oku\}@lr\.first\.iir\.isct\.ac\.jp
参见图标题
图1:(1) 提出的基于回忆的提示策略:自回忆(SR)和问题回忆(QR),以截止年份1789为例。(2) 提出的多截止历史事件基准(MHEB)。
## 1 引言
大型语言模型(LLM)越来越多地应用于时间预测任务,如股票价格预测、气候建模和交通预测(Yu et al., 2023;Jin et al., 2024)。然而,LLM是在长时间跨度内收集的大规模语料库上预训练的,这引发了一个基本的数据污染问题:在模型实际知识截止日期之前的示例上进行评估,可能探测的是记忆的知识而非真正的时间推理能力(Roberts et al., 2023;Dong et al., 2024)。因此,将LLM约束为仅基于指定截止日期之前可用的知识进行回答,对于确保可信的时间基准测试和防止真实世界应用中的知识泄露至关重要。为了确保时间一致性,先前的工作¹通常依赖于在精心策划的时间数据集上进行额外训练(Ren et al., 2023;Zhao et al., 2024)。虽然这些方法有效地改善了时间接地能力,但它们需要内部模型访问,因此无法应用于通过API提供的黑盒LLM。相比之下,提示知识截止(Prompted Knowledge Cutoff)(Gao et al., 2025)通过提示指令LLM“遗忘”特定截止日期之后的所有信息,例如*“假设你是一个知识截止日期为2020年12月31日的AI”*。虽然这种方法在被遗忘信息被明确查询时有效,但在该信息仅与问题存在因果关系的情况下,其性能会显著下降。另一个局限是现有的提示截止基准为每个问题分配一个固定的截止日期。这种设置仅能揭示提示在某个特定时间边界上是否成功,而无法反映当截止日期进一步向事件年份之前推移时性能如何变化。为此,我们提出了两种新颖的基于回忆的提示策略,通过生成中间输出来改进知识截止性能:**自回忆(Self-Recall,SR)** 提示,鼓励模型在回答前输出一句关于其截止立场的简短陈述,将时间约束从外部指令转化为更可能在生成过程中持续存在的自我声明状态;以及**问题回忆(Question-Recall,QR)** 提示,指示模型在回答前生成关于问题相关事实及其关联年份的简短概述,将检索锚定到指定的截止日期,并抑制截止后信息的激活。为了进行评估,我们进一步构建了**多截止历史事件基准(Multi-cutoff Historical Event Benchmark, MHEB)**,其中每个实例都基于13世纪至21世纪的一个历史事件。通过将同一问题与距事件年份0到9年的截止日期配对,我们可以直接测量当截止日期相对于事件年份移动时知识截止性能如何变化。在Gao等人(2025)的三个知识截止基准上对三种流行LLM进行的全面评估表明,SR、QR及其组合SR→QR(即先应用SR再应用QR)始终优于传统的提示基线。此外,我们发现现有的逐步提示方法(如零样本思维链和计划-求解)可能会显著降低知识截止性能。在MHEB上的实验结果进一步证实,在距离事件年份的所有十个截止偏移量上,SR→QR都取得了最高的成功率,证明了我们方法的鲁棒性。
¹相关工作的内容见附录A。
## 2 方法
### 2.1 自回忆与问题回忆
虽然生成中间输出的提示方法(如逐步推理)已知能提高LLM在各种任务上的表现(Kojima et al., 2022;Wang et al., 2023),但先前关于提示知识截止的工作(Gao et al., 2025)仅考察了直接回答提示。我们通过引入两种新颖的基于回忆的提示策略——自回忆和问题回忆——来弥补这一空白,如图1所示。
#### 自回忆(SR)
先前研究表明,提示模型首先重新陈述其被分配的角色可以改善LLM的推理能力(Kong et al., 2024)。受这一发现启发,我们提出了**自回忆**,旨在加强提示知识截止下的角色遵从性。SR要求模型在生成最终答案前明确回忆其知识截止条件。通过这种方式,我们将约束从外部用户指令转化为LLM自我声明的内部状态,使得预期的时间边界更可能在后续生成中得到体现。
#### 问题回忆(QR)
**问题回忆**通过指示模型首先回忆在指定截止日期可用的、与问题相关的事实来融入时间上下文。与简单的事实枚举不同,QR将每个回忆的事实与其时间信息配对,从而根据截止边界组织检索到的知识。这个初步的回忆步骤旨在将知识检索锚定在截止日期,并抑制模型对截止后信息的依赖。
#### 提示设计
两种提示方法都旨在**控制模型对现有知识的选择**,而非增强推理。如图1所示,我们将两种方法中的中间回忆输出限制为单个短句,不对模型施加额外任务,如过度的结构化、详细解释或显式推理。除了单独应用SR和QR外,我们还评估了两种有序组合:SR→QR和QR→SR,以考察角色强化与时间接地回忆的结合是否能提升性能。
### 2.2 多截止历史事件基准
现有的提示知识截止基准(Gao et al., 2025)将每个问题的截止年份固定为事件年份本身,未考察截止日期变化带来的影响。为解决这一问题,我们构建了**多截止历史事件基准(MHEB)**,使我们能够评估提示知识截止方法在不同截止年份设置下的泛化能力。
#### 构建
我们从Wikidata收集历史事件,重点关注标记为**战争**(Q198)、**战役**(Q178561)或**事件**(Q1190554)的实体,每个实体都带有发生年份的注释。对于每个候选事件,我们在没有截止指令的情况下提示目标LLM识别其发生年份,仅保留那些回答正确的事件。这一筛选步骤确保后续的截止失败不能归因于模型缺乏事实知识。最终数据集包含900个历史事件,从13世纪(1201–1300)开始每个世纪采样100个事件。
#### 格式
每个实例被表述为一个二值问题:*“名为\{event\}的历史事件是否曾经发生过?”* 对于每个事件,截止年份可以设置为事件年份之前的不同偏移量。当不应用截止时,正确答案是“是”;当截止年份在事件年份或之前时,正确答案是“否”。这种设计使我们能够评估当截止年份进一步向事件年份之前推移时,提示截止是否仍然有效。关于MHEB的更多细节见附录B.4。
## 3 实验
### 3.1 实验设置
#### 基准
除了**MHEB**,我们还使用了Gao等人(2025)的三个数据集:**事实**(关于反映世界状态有意义变化的事件的二选一问题)、**语义**(随时间意义发生变化的词语的自由形式定义)以及**反事实**(需要关于截止后事件所影响结果的因果推理的多选题)。我们使用**遗忘成功率**作为所有数据集的主要评估指标。特别地,反事实原本使用**软**度量(若模型输出与其无截止时的答案不同则成功);我们还报告一个更严格的**硬**度量(若模型在截止条件下选择了正确答案则成功)。为确保截止失败反映的是检索选择而非缺乏相关知识,我们仅将事实和反事实数据集限制为每个模型在无截止提示下都能正确回答的问题。关于这些数据集的更多细节见附录B。
#### 模型
我们评估了三个LLM:GPT-4o、gpt-oss-120b和Llama-3.3-70B-Instruct。所有模型的温度设置为0。更多实施细节见附录C。
#### 基线
我们使用Gao等人(2025)中的**P1**作为基础截止指令,该指令提示模型遗忘指定截止日期之后的知识。我们进一步对比了在P1基础上应用的两种现有逐步提示基线:零样本思维链(ZS-CoT)(Kojima et al., 2022),在答案前追加“让我们一步一步思考”;以及零样本计划-求解(ZS-PS)(Wang et al., 2023),提示模型首先计划然后求解。本工作中使用的完整提示模板见附录D。
| 方法 | 事实 | 语义 | 反事实(硬) | 反事实(软) |
|------|------|------|--------------|--------------|
| **Llama-3.3-70B-Instruct** | | | | |
| P1 | 0.681 | 0.685 | 0.390 | 0.514 |
| w/ ZS-CoT | 0.708 | 0.718 | 0.326 | 0.416 |
| w/ ZS-PS | 0.633 | 0.698 | 0.364 | 0.454 |
| w/ SR | 0.767 | 0.695 | 0.532 | 0.655 |
| w/ QR | 0.706 | 0.681 | 0.436 | 0.529 |
| w/ SR→QR | **0.803** | 0.688 | **0.586** | 0.651 |
| w/ QR→SR | 0.773 | 0.644 | 0.502 | 0.588 |
| **GPT-4o** | | | | |
| P1 | 0.647 | 0.668 | 0.505 | 0.567 |
| w/ ZS-CoT | 0.710 | 0.654 | 0.251 | 0.286 |
| w/ ZS-PS | 0.725 | 0.668 | 0.317 | 0.360 |
| w/ SR | 0.735 | 0.685 | 0.646 | **0.772** |
| w/ QR | 0.685 | 0.621 | 0.551 | 0.594 |
| w/ SR→QR | **0.743** | **0.711** | **0.664** | 0.740 |
| w/ QR→SR | 0.712 | 0.674 | 0.597 | 0.678 |
| **gpt-oss-120b** | | | | |
| P1 | 0.807 | 0.666 | 0.616 | 0.683 |
| w/ ZS-CoT | 0.776 | 0.634 | 0.612 | 0.674 |
| w/ ZS-PS | 0.782 | 0.661 | 0.564 | 0.626 |
| w/ SR | **0.825** | 0.670 | 0.684 | 0.776 |
| w/ QR | 0.776 | 0.644 | 0.689 | 0.770 |
| w/ SR→QR | 0.788 | **0.683** | 0.702 | 0.819 |
| w/ QR→SR | 0.791 | 0.646 | **0.712** | **0.824** |
表1:在Gao等人(2025)的三个数据集上,三个LLM的知识截止成功率。对于每个模型-数据集组合,最佳值以**粗体**突出显示,次佳值以下划线标出。
| 提示 | \(Y_{\text{cutoff}} - Y_{\text{event}}\)(相对于事件年份的截止年份) | 平均 |
|------|---------------------------------------------------------------|------|
| | -9 | -8 | -7 | -6 | -5 | -4 | -3 | -2 | -1 | 0 | |
| P1 | 0.749 | 0.738 | 0.739 | 0.742 | 0.723 | 0.716 | 0.710 | 0.713 | 0.697 | 0.673 | 0.720 |
| w/ ZS-CoT | 0.824 | 0.820 | 0.816 | 0.811 | 0.811 | 0.824 | 0.809 | 0.818 | 0.831 | 0.858 | 0.822 |
| w/ ZS-PS | 0.770 | 0.763 | 0.756 | 0.748 | 0.752 | 0.748 | 0.757 | 0.746 | 0.739 | 0.768 | 0.755 |
| w/ SR | 0.833 | 0.830 | 0.822 | 0.821 | 0.818 | 0.813 | 0.809 | 0.812 | 0.806 | 0.794 | 0.816 |
| w/ QR | 0.806 | 0.787 | 0.761 | 0.768 | 0.769 | 0.787 | 0.763 | 0.778 | 0.779 | 0.827 | 0.782 |
| w/ SR→QR | **0.892** | **0.898** | **0.889** | **0.891** | **0.890** | **0.892** | **0.889** | **0.893** | **0.910** | **0.910** | **0.895** |
| w/ QR→SR | 0.831 | 0.833 | 0.827 | 0.834 | 0.824 | 0.824 | 0.829 | 0.828 | 0.831 | 0.852 | 0.831 |
表2:在Llama3.3-70b-Instruct上,多截止历史事件基准的知识截止成功率。每列中最高成功率以**粗体**显示,次高值以下划线标出。
### 3.2 知识截止数据集上的结果
表1报告了在Gao等人(2025)基准上的知识截止成功率。总体而言,SR在所有模型和数据集上均一致优于P1基线。尽管仅需要较短的中间输出,SR在大多数设置中也优于现有的逐步提示基线。改进在反事实数据集上尤为明显,基于SR的方法在需要截止条件下进行因果推理的问题上取得了最佳性能。我们将此归因于对截止条件的显式回忆,这有助于模型在答案生成过程中更好地维持预期的时间约束。相比之下,ZS-CoT和ZS-PS通常比单独使用P1表现更差,尤其在反事实数据集上。我们假设显式推理可能促使模型检索发生在截止年份之后的问题相关事实,导致其违反截止约束并恢复到无截止的答案。相比之下,我们的基于回忆的提示策略旨在引导模型的知识选择,而不引发冗长的推理,从而减少其对截止后信息的依赖,使截止条件下的因果推理更加可靠。最后,组合SR和QR在多个模型和数据集上进一步提升了性能,其中SR→QR通常产生最佳的整体结果。这表明,首先声明截止角色有助于后续针对问题的回忆在更强的时间约束下运行,而QR进一步将答案锚定在时间上有效的证据中,并抑制对截止后知识的引用。
(此处省略续文)相似文章
大语言模型能泄露训练数据,但它们愿意吗?对LLM记忆的倾向性感知评估
PropMe是一个倾向性感知框架,用于评估LLM的记忆,区分强制复现能力和自然倾向,使用SimpleTrace在开放模型和数据集上进行确定性归因。
询问老朋友:诊断与缓解基于LLM的法定问答中的时间故障模式
本文研究了基于LLM的法定问答中的时间故障模式,包括截止后过时和近因偏差。它引入了一个包含312个专家验证的德国法定问答对的基准,并评估了不同推理设置下的LLM。
少即是多:认知负荷与LLM数学推理的单提示天花板
针对LLM形式化数学推理的实证研究发现“单提示天花板”现象:无论提示多长,准确率均停滞在60–79%,根源在于不可判定性、模型脆弱性与分布失配。
LLMs知道自己知道,但并未据此行动:一种用于测试时扩展的元认知框架
本文提出一种元认知框架,将LLMs中的监控与推理分离,利用解决前的已知感(feeling-of-knowing)和解决后的学习判断(judgment-of-learning)信号来控制何时信任、重试或聚合答案,在不更新参数的情况下提升文本、代码和多模态基准测试的准确率。
论大语言模型适应性的局限:模型内化先验对标注任务性能的影响
本文研究了LLM的内化先验如何影响零样本标注性能,发现近三分之二的错误抵抗基于提示的修正,并引入了定义特定熟悉度(DSF)作为比记忆化指标更好的预测因子。