TEMPO:通过模式分离策略优化实现时间强制,用于可信的大语言模型回测
摘要
提出TEMPO,一种策略优化方法,通过使用双模式奖励和基于GRPO的训练,训练大语言模型仅依据截止日期前的信息进行推理,将知识泄露降低2–13%,同时将任务性能提升6–13%。
arXiv:2605.18843v1 Announce Type: new
摘要:在历史事件上回测大语言模型,需要模型仅依据指定截止日期前可用的信息进行推理。然而,模型通常会在推理中泄露来自预训练的截止日期后知识,从而虚增表面准确性并破坏评估的有效性。当被抑制的内容与预测存在因果关系时,基于提示的约束方法会失效,而知识遗忘无法解决这个问题,因为时间合规性是实例相关的:同一事实对于一个截止日期可能是合法证据,对于另一个截止日期则可能是违规。模型需要的不是抹除知识,而是学习时间纪律:即根据每个实例的截止日期选择证据。我们提出TEMPO(通过模式分离策略优化实现时间强制),该方法通过两项贡献来训练这种纪律:(1)一种双模式奖励,其中泄露模式作为硬性前提将截止日期后的断言驱动至零,随后性能模式优化任务性能;(2)基于GRPO的训练流程,使模型能够发现时间上有效的推理策略。我们证明,训练过程单调地减少泄露,收敛到无泄露最优,并在达到合规后提升任务性能。在三个预测任务和两个模型上,TEMPO在所有条件下将泄露从2~13%降低到0.6~3.7%,在存在强截止日期前信号的任务上,任务性能提升6~13%,而在仅凭有效信息本身预测任务就具有挑战性的情况下,任务性能得以保持。
相似文章
TEMPO:为大推理模型扩展测试时训练
TEMPO 提出一种测试时训练框架,在策略微调与评判器再校准之间交替,防止多样性崩塌并持续放大推理模型的性能,将 Qwen3-14B 在 AIME 2024 上的得分从 42.3% 提升至 65.8%。
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。
ESPO:早期停止近端策略优化
ESPO为强化学习引入了一种早期停止机制,能够检测并终止大语言模型中失败的推理轨迹,从而提升数学推理性能,同时减少超过20%的计算量。
LambdaPO: 面向推理语言模型的Lambda风格策略优化
引入LambdaPO,一种新颖的强化学习框架,它通过将优势估计分解为成对偏好比较并添加语义密度奖励来改进GRPO,从而在数学推理任务上取得了更好的性能。
TeamTR:多智能体LLM协调的信任域微调
本文发现共享上下文多智能体LLM团队在顺序微调时存在一种结构性失效模式,并将其形式化为复合占位偏移。为此提出了TeamTR,一种信任域框架,通过重采样轨迹并施加每个智能体的散度控制,实现了平均7.1%的性能提升。