LaRA: 逐层表示分析用于检测RL后训练中的数据污染

Hugging Face Daily Papers 论文

摘要

LaRA是一个逐层表示分析框架,通过测量模型各层的几何偏差来检测RL后训练LLM中的数据污染,优于输出级基线。

强化学习(RL)后训练已被证明能提升大型语言模型(LLM)的推理能力。然而,关于RL后训练中的数据污染问题研究甚少,这可能会损害训练过程本身的泛化能力和评估可靠性。现有的检测方法主要依赖于输出级信号(如似然度或熵),但这些信号对于RL训练的模型变得不可靠,因为RL通过轨迹级奖励而非词元似然度来塑造行为。我们提出了LaRA,一个逐层表示分析框架,用于检测RL后训练LLM中的污染。LaRA引入了三个互补指标,在受控扰动下测量扰动敏感性、方向坍塌和局部表示刚度。我们发现污染会在各层间产生渐进式几何偏差,包括放大的扰动敏感性、更强的方向坍塌和增强的局部刚度。基于我们的发现,我们还开发了一种污染检测协议,该协议聚合跨层和跨指标的表示级偏差。在RL训练的推理模型上的实验表明,我们的协议在污染检测方面优于现有的输出级基线。
查看原文
查看缓存全文

缓存时间: 2026/05/29 03:00

论文页面 - LaRA:用于检测强化学习后训练中数据污染的逐层表示分析

来源:https://huggingface.co/papers/2605.29888

摘要

LaRA 是一种逐层表示分析框架,通过分析模型各层的几何偏差,来检测强化学习后训练的大型语言模型中的数据污染。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 后训练已被证明能提升大型语言模型 (https://huggingface.co/papers?q=large%20language%20models) 的推理能力。然而,关于强化学习后训练中的数据污染 (https://huggingface.co/papers?q=data%20contamination) 问题,目前探索甚少,这可能会削弱训练过程本身的泛化能力和评估可靠性。现有的检测方法主要依赖于输出级信号(如似然或熵),但这些信号对于 RL 训练的模型不再可靠,因为 RL 通过轨迹级奖励而非 token 似然来塑造行为。我们提出 LaRA,一种用于检测 RL 后训练 LLM 中数据污染的逐层表示分析 (https://huggingface.co/papers?q=layer-wise%20representation%20analysis) 框架。LaRA 引入了三个互补指标,用于测量受控扰动下的扰动敏感性 (https://huggingface.co/papers?q=perturbation%20sensitivity)、方向坍塌 (https://huggingface.co/papers?q=directional%20collapse) 和局部表示刚性 (https://huggingface.co/papers?q=local%20representation%20rigidity)。我们发现,污染会在各层之间产生渐进式的几何偏差 (https://huggingface.co/papers?q=geometric%20deviation),包括放大的扰动敏感性 (https://huggingface.co/papers?q=perturbation%20sensitivity)、更强的方向坍塌 (https://huggingface.co/papers?q=directional%20collapse) 以及增强的局部刚性。基于这些发现,我们还开发了一种污染检测协议,该协议聚合了跨层和跨指标的表示级偏差。在 RL 训练过的推理模型上的实验表明,我们的协议在污染检测方面优于现有的输出级基线。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29888)查看 PDF (https://arxiv.org/pdf/2605.29888)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29888)

在你的 agent 中获取此论文:

hf papers read 2605.29888

没有最新的 CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.29888,即可从该页面链接到此论文。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.29888,即可从该页面链接到此论文。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.29888,即可从该页面链接到此论文。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中,即可从该页面链接到此论文。

相似文章

层表示动力学:跨嵌入器和基础大语言模型的实证研究

arXiv cs.LG

本文引入了层表示动力学(LRD),这是一个包含三个测量家族的框架,用于分析语言模型中各层隐藏状态的变化。应用于30个MTEB任务上的31个模型,LRD揭示了架构差异,并实现了无标签模型选择和推理时层剪枝。

Hybrid-LoRA:桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。

基于对数对齐比的训练时泛化诊断

arXiv cs.LG

本文介绍了对数对齐比(LAR),这是一种训练时度量,用于衡量参数-激活对齐度,并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明,LAR能够跟踪从记忆到泛化的转变,并在无需留出数据的情况下标记过拟合。

DART:通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移 来源:[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要 经过安全调优的大语言模型(LLM)通常会回避承认人口统计差异,即使这种承认在事实上是正确的(例如,基于血统的