询问老朋友:诊断与缓解基于LLM的法定问答中的时间故障模式
摘要
本文研究了基于LLM的法定问答中的时间故障模式,包括截止后过时和近因偏差。它引入了一个包含312个专家验证的德国法定问答对的基准,并评估了不同推理设置下的LLM。
arXiv:2605.23497v1 公告类型:新
摘要:大型语言模型越来越多地被用于法律研究,然而它们固定的训练截止日期和对静态参数知识的依赖与成文法的演变性质相冲突。我们研究了两种时间故障模式:截止后过时(模型在立法修正后应用被取代的规则)和近因偏差(模型更喜欢较新的规定,即使历史版本支配事实模式)。为此,我们提出了一个包含312个专家验证的、对时间敏感的德国法定问答对的基准,涵盖三个类别:截止后修正问题、修正前问题和多条款修正前问题。我们评估了OpenAI、Anthropic和DeepSeek的五种LLM,在四种推理设置下:普通、网络搜索以及两种检索增强变体(通过事实日期提取和版本过滤强制执行时间有效性)。使用经人类专家评级验证的LLM作为裁判,我们发现普通设置下截止后性能严重下降。两种RAG方法在所有问题类型上均显著提高了性能,而网络搜索带来的收益不稳定,并且在历史锚定任务上表现出明显的近因偏差。我们的结果表明,可靠的法定问答需要将时间有效性视为硬约束。
查看缓存全文
缓存时间: 2026/05/25 09:02
# 询问老友:诊断与缓解基于LLM的法规问答中的时间失效模式 来源:https://arxiv.org/html/2605.23497 \(2026\) ###### 摘要。 大型语言模型越来越多地被用于法律研究,然而其固定的训练截止日期和对静态参数知识的依赖,与成文法不断演变的本质相矛盾。我们研究了两种时间失效模式:截止日期后过时,即模型在立法修正后应用被取代的规则;以及近期性偏见,即模型更偏好新近条款,即使历史版本才对事实模式具有管辖权。为此,我们提出了一个包含312个专家验证的、对时间敏感的德国成文法问答对基准测试,涵盖三类问题:截止日期后修正问题、修正前问题和多条款修正前问题。我们评估了OpenAI、Anthropic和DeepSeek的五种LLM在四种推理设置下的表现:普通、网络搜索以及两种检索增强变体,这两种变体通过事实日期提取和版本过滤来强制实施时间有效性。使用经人类专家评分验证的LLM作为评判者,我们发现在普通截止日期后设置下性能严重下降。两种RAG方法在所有问题类型上均显著提高了性能,而网络搜索带来的提升不稳定,并且在历史锚定任务上表现出明显的近期性偏见。我们的结果表明,可靠的法规问答需要将时间有效性视为硬约束。 大型语言模型,时间泛化,近期性偏见,法规问答,LLM作为评判者 ††会议:国际人工智能与法律大会;2026年6月8-12日;新加坡††期刊年份:2026## 1. 引言 大型语言模型(LLM)的出现改变了日常专业工作,包括法律领域。汤森路透2025年关于生成式AI的报告(Reuters,2025 (https://arxiv.org/html/2605.23497#bib.bib42))显示,LLM驱动工具在法律实践中的使用率从2024年的14%上升至2025年的26%。在现有用户中,40%报告每日使用,其中法律研究(73%)是最常见的应用之一。这项对1702名受访者的调查以普通法系司法管辖区为主,民法体系代表性不足。值得注意的是,没有来自德国的受访者。为弥补这一空白,我们借鉴了巴伐利亚律师协会(BAV)进行的一项调查。2024年,BAV调查了558名在巴伐利亚执业的律师(e.V.,2024 (https://arxiv.org/html/2605.23497#bib.bib44))。在报告计划或实际使用AI工具的律师中,法律研究是最常被提及的领域,73.1%的受访者认为这是一个相关应用。 由于现代法律研究经常使用基于LLM的系统进行,这些发现推动了我们的工作。法律专业人士可能会依赖LLM,却没有意识到其有限的时间鲁棒性。与一般知识不同,法律答案的正确性取决于条款的具体版本及其时间适用性。相比之下,LLM在静态数据上训练,并部署有固定的知识截止日期。这种不匹配导致了两种时间失效模式。在立法修正后,模型依赖被取代的条款时,就会出现截止日期后过时。即使历史适用条款是可用的,但模型错误地优先选择新近法律文本时,就会产生近期性偏见。 见图1标题 图1. 截止日期后修正问题生成流程概览 ## 贡献 本工作的贡献总结如下: - •时间法律基准:我们引入了一个由312个专家验证的问答对组成的新数据集,旨在诊断两种时间失效模式,具体为用以识别过时性的截止日期后修正问题和用以测试LLM应用历史版本条款能力的修正前问题。¹¹¹该数据集发布于https://github.com/TUMLegalTech/temporal_bias。 - •诊断性评估:我们在多个模型层级上进行了评估,以隔离特定的失效模式。对于截止日期后修正任务,我们评估了ChatGPT-5.1和Claude Sonnet 3.7。由于它们的知识截止日期早于我们的评估日期,因此可用于诊断参数过时性。对于需要历史推理的任务(修正前问题和多条款修正前问题),我们使用了实验时最先进的ChatGPT-5.2、Claude 4.5 Opus和DeepSeek v3.2。结果显示,即使是最有能力的模型,当法律事实模式规定适用被取代的条款时,也经常无法覆盖新近的参数知识。 - •时间RAG缓解:我们提出并评估了两种检索增强生成(RAG)策略——RAG-kNN和RAG-ToC——它们使用了“适用日期”过滤。我们证明,严格将空间限制在相关法律时间范围内是对时间退化最有效的缓解措施。 ## 2. 背景 ### 2.1. LLM的时间泛化 自然语言处理中的时间挑战已被形式化为时间泛化。Lazaridou等人的早期工作表明,随着评估数据进一步超出训练窗口,语言模型性能会下降(Lazaridou等人,2021 (https://arxiv.org/html/2605.23497#bib.bib13))。他们主张时间应被视为一个独立的泛化因素;必须在与训练集没有时间重叠的未来数据上评估模型,才能衡量其适应性。Zhu等人通过引入FreshBench(一个基于arXiv论文、新闻文章和维基百科编辑构建的带时间戳且可扩展的评估框架)扩展了这一工作(Zhu等人,2025 (https://arxiv.org/html/2605.23497#bib.bib15))。他们识别出两种系统行为:怀旧偏见,即模型在旧数据上表现更好;以及新近性偏好偏见,即模型过度青睐新近信息。此外,他们引入了术语时间退化,指模型发布后在未来的性能下降。对专有和开源模型的实验表明,尽管较新的模型能力更强,但在面向未来的任务上通常表现出更快的时间退化。最近的实证工作在医学领域记录了此类失败:Vladika等人引入了MedRevQA和MedChangeQA来评估生物医学领域的时间鲁棒性,在该领域,随着新证据的出现,结论会发生变化(Vladika等人,2025 (https://arxiv.org/html/2605.23497#bib.bib31))。他们评估了八个主要LLM(如ChatGPT-4o和Llama 3.3),发现对于需要最新结论的问题,性能急剧下降,模型经常由于预训练语料库充斥着较旧的文献而输出过时的答案。 ### 2.2. 法律领域的时间变化与适应 随着法律文本随时间变化,LLM必须跨时间进行泛化。在实践中,这意味着两点:(i) 当法律条款变化时,模型应保持可靠;(ii) 当任务需要时,模型应仍然支持历史法律条款。 ChronosLex将时间泛化扩展到多标签法律文本分类,并表明性能强烈依赖于时间训练对齐(T.y.s.等人,2024 (https://arxiv.org/html/2605.23497#bib.bib17))。在旧法律时期训练的模型,当在后期评估时性能大幅下降,因为法律语言和标签条件模式会随时间漂移。这与Lazaridou等人更广泛的观察一致,即训练顺序很重要(Lazaridou等人,2021 (https://arxiv.org/html/2605.23497#bib.bib13)):如果学习没有时间结构化,较新的数据可能会覆盖旧的模式,并在时间变化下产生脆弱性。ChronosLex进一步证明,尊重时间顺序的训练程序(例如,随时间进行增量更新)在结合限制遗忘的持续学习机制时,可以显著提高未来性能(T.y.s.等人,2024 (https://arxiv.org/html/2605.23497#bib.bib17))。换句话说,时间鲁棒性不仅是一个数据问题,也是一个训练协议问题。 从下游角度来看,LexTempus(T.y.s.s和Vuong,2025 (https://arxiv.org/html/2605.23497#bib.bib19))针对法律语言模型的上游适应。一个关键的动机是,天真地在最新法律数据上更新单个模型可能会灾难性遗忘旧的法律制度,尽管这些旧制度对于历史案件分析、回顾性合规检查或纵向法律研究可能仍然必要。LexTempus没有覆盖整个模型,而是冻结了骨干语言模型,并训练一个不断增长的轻量级适配器专家池。当损失或困惑度的统计变化表明法律数据分布发生变化时,会动态添加新的专家。在推理时,一个非参数路由器选择与查询的时间和语义上下文最相关的专家(或专家组合)。这种设计使系统能够在分析历史案例时重用旧的专家知识,而不是默认采用最新的(且可能不适用的)法律制度。 尽管时间鲁棒性有所提高,但ChronosLex和LexTempus仍然是反应性的:它们只有在新的法规或法律解释出现在训练流中后才能适应。因此,在通过更新其参数知识在数据中观察到并纳入这些变化之前,它们无法可靠地推理关于全新立法或前所未有的法律发展。这在法律领域中后果严重,因为相关制度可能突然发生变化,而正确性取决于立即识别新权威。 鉴于训练完成后存储在语言模型参数中的知识是固定的,RAG已成为在不重新训练模型的情况下纳入新信息的标准技术(Lewis等人,2020 (https://arxiv.org/html/2605.23497#bib.bib22))。在法律领域,法律不断发展,RAG使模型能够检索法规、公报和其他公开可用的材料,从而使答案基于现行法律(Zheng等人,2025 (https://arxiv.org/html/2605.23497#bib.bib27))。一个显著的例子是法定研究助手(STARA)(Surani等人,2025 (https://arxiv.org/html/2605.23497#bib.bib37)),它自动化了法规调查。STARA通过将每部法规代码拆分为细粒度条款,并用其层次结构、定义术语和交叉引用注释每个片段来预处理。然后,它使用大型语言模型根据任务特定规则对这些条款进行分类并提取结构化信息。关键字过滤器产生候选条款的短名单,并提示模型确定哪些是相关的并提取所需字段。由于STARA对检索到的法规文本进行操作,而不是依赖模型的内部参数,因此更新法规语料库(例如,当法律发生变化时)就足以保持系统更新,无需重新训练底层模型。 ### 2.3. 挑战 评估法律RAG需要的不仅仅是标准的事实评估,因为错误适用法理是主要风险。Zheng等人强调,法律AI必须处理不断变化的语料库,因此需要为模型配备检索器(Zheng等人,2025 (https://arxiv.org/html/2605.23497#bib.bib27))。他们的基准数据集将问题与黄金段落和答案配对,以评估检索和推理;他们表明,更高的召回率本身并不能保证改进的问答能力,因为模型必须对检索到的段落进行推理。 另一个挑战是,近期性偏见可能出现在基于LLM系统的检索和推理阶段。一个关键发现是,对于基于LLM的重排名器,新近性可以作为一个隐含的相关性信号。通过向候选段落中注入合成出版日期而保持其内容不变,Fang等人表明,标记为更近期的文档在排名中会被系统地提升(Fang等人,2025 (https://arxiv.org/html/2605.23497#bib.bib39))。这种提升足以显著改变排名结果的平均出版年份,表明即使没有内容差异证明这种偏好的合理性,模型也会将时间新鲜度视为相关性的证据。Zhang等人发现,长上下文LLM表现出时代敏感性:模型在现代案例上的准确性明显高于19世纪案例(Zhang等人,2025 (https://arxiv.org/html/2605.23497#bib.bib38))。他们的时间分层揭示,随着推翻判决与被推翻判决之间的时间距离增加,准确性下降,这表明模型依赖时间启发式而非法理推理。他们还提出了使用弃权机制的动机,如(Wen等人,2025 (https://arxiv.org/html/2605.23497#bib.bib35))中所述:当面对超出其时间知识的查询时,模型拒绝回答可能更安全,这是一种合理的替代方案,可避免返回过时或不适用于的法律结论。 ### 2.4. 诊断截止日期后过时和近期性偏见 Zhang等人的LLMs被推翻?数据集(Zhang等人,2025 (https://arxiv.org/html/2605.23497#bib.bib38))专门设计用于探测普通法体系中的近期性偏见,但民法管辖区没有可比的数据集,也没有针对截止日期后过时的数据集。Büttner和Habernal的GerLayQA(Büttner和Habernal,2024 (https://arxiv.org/html/2605.23497#bib.bib40))数据集侧重于帮助外行用户解决德国民法问题:它将约≈21k个真实论坛问题与引用法律条款的律师撰写的答案配对。他们的原始数据跨越2004-2023年,但他们过滤掉了所引用法规已被修改的问答对。因此,无法通过询问需要修正法律的问题来追踪近期性偏见。此外,他们没有确保截止日期后的问题特别需要了解同一条款在截止日期前和截止日期后版本之间的差异。因此,不清楚问题是否使用截止日期前的参数知识来回答,这使得无法准确追踪截止日期后的过时情况。Fan等人的LEXAM基准包含4886个源自2016-2023年的法律考试问题,附有参考答案和明确的推理指导;他们通过一个集成LLM作为评判者来评估模型(Fan等人,2025 (https://arxiv.org/html/2605.23497#bib.bib41))。他们进一步观察到,一些答案可能已经过时,并提出了基于元数据的更新。然而,与GerLayQA一样,LEXAM没有测试LLM是否表现出近期性偏见或在截止日期后的知识差距上挣扎。相比之下,我们的方法在法律环境中明确诊断了近期性偏见和截止日期后过时,填补了现有基准留下的空白。 ## 3. 数据 ### 3.1. 数据来源与准备 为了评估时间泛化,我们需要历史的、带时间戳的成文法合并版本。由于德国不提供机器可读形式的公共、法律上权威的历史合并法规数据库(Prior等人,2025 (https://arxiv.org/html/2605.23497#bib.bib33)),我们使用了buzer.de,这是一个私人运营的资源,提供德国联邦法律的非官方合并版本及其生效日期(buzer.de,2026 (https://arxiv.org/html/2605.23497#bib.bib32))。使用此作为原始数据,我们构建了一个包含312个法律问题的数据集。
相似文章
STALE:LLM智能体能否识别记忆何时失效?
本文识别了LLM智能体中的一个关键失效模式:当新证据与先前信念冲突时,它们无法更新个性化记忆。本文引入了STALE基准和一个三维探测框架,揭示了即使最佳模型也仅达到55.2%的准确率,并提出了CUPMem作为鲁棒记忆修正的原型。
LLMs能否被约束在过往?通过基于回忆的提示改进知识截止
本文提出了基于回忆的提示策略(Self-Recall和Question-Recall),以提升LLM对知识截止的遵循能力,在反事实问题上优于现有方法,并引入多截止历史事件基准(MHEB)用于鲁棒性评估。
长上下文LLM中的位置失败:推理基准测试的盲点
本论文识别出长上下文LLM推理基准测试中的一个盲点:它们未能控制任务在上下文中的位置,导致位置失败未被检测到。作者提出上下文旋转评估(CRE)来系统地改变任务位置、填充内容和上下文长度,揭示出当推理任务放置在长上下文中时,某些模型的准确率会严重下降。
@kyutai_labs: 我们展示了大语言模型在回答时间敏感问题(如“某年谁赢得了欧冠”)时的准确性下降——甚至在知识截止日期内也是如此…
Kyutai Labs 证明,大语言模型在回答时间敏感问题(即使在知识截止日期内)时准确性会下降,并推出了 KairosQA 数据集。他们通过按时间排序训练数据,训练出了避免此问题的模型。
DeferMem:基于强化学习的查询时证据蒸馏在长期记忆问答中的应用
DeferMem 提出了一种面向 LLM 智能体的长期记忆框架,将记忆解耦为高召回率候选检索和基于强化学习的查询条件证据蒸馏,实现了领先的问答准确率和更快的运行时间。