TEMPO：通过模式分离策略优化实现时间强制，用于可信的大语言模型回测

arXiv cs.LG 2026/05/20 04:00 论文

摘要

提出TEMPO，一种策略优化方法，通过使用双模式奖励和基于GRPO的训练，训练大语言模型仅依据截止日期前的信息进行推理，将知识泄露降低2–13%，同时将任务性能提升6–13%。

arXiv:2605.18843v1 Announce Type: new 摘要：在历史事件上回测大语言模型，需要模型仅依据指定截止日期前可用的信息进行推理。然而，模型通常会在推理中泄露来自预训练的截止日期后知识，从而虚增表面准确性并破坏评估的有效性。当被抑制的内容与预测存在因果关系时，基于提示的约束方法会失效，而知识遗忘无法解决这个问题，因为时间合规性是实例相关的：同一事实对于一个截止日期可能是合法证据，对于另一个截止日期则可能是违规。模型需要的不是抹除知识，而是学习时间纪律：即根据每个实例的截止日期选择证据。我们提出TEMPO（通过模式分离策略优化实现时间强制），该方法通过两项贡献来训练这种纪律：（1）一种双模式奖励，其中泄露模式作为硬性前提将截止日期后的断言驱动至零，随后性能模式优化任务性能；（2）基于GRPO的训练流程，使模型能够发现时间上有效的推理策略。我们证明，训练过程单调地减少泄露，收敛到无泄露最优，并在达到合规后提升任务性能。在三个预测任务和两个模型上，TEMPO在所有条件下将泄露从2~13%降低到0.6~3.7%，在存在强截止日期前信号的任务上，任务性能提升6~13%，而在仅凭有效信息本身预测任务就具有挑战性的情况下，任务性能得以保持。

查看原文

TEMPO：通过模式分离策略优化实现时间强制，用于可信的大语言模型回测

相似文章

TEMPO：为大推理模型扩展测试时训练

基于梯度外推的策略优化

ESPO：早期停止近端策略优化

LambdaPO: 面向推理语言模型的Lambda风格策略优化

TeamTR：多智能体LLM协调的信任域微调

提交意见反馈