LaRA: 逐层表示分析用于检测RL后训练中的数据污染

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

LaRA是一个逐层表示分析框架，通过测量模型各层的几何偏差来检测RL后训练LLM中的数据污染，优于输出级基线。

强化学习（RL）后训练已被证明能提升大型语言模型（LLM）的推理能力。然而，关于RL后训练中的数据污染问题研究甚少，这可能会损害训练过程本身的泛化能力和评估可靠性。现有的检测方法主要依赖于输出级信号（如似然度或熵），但这些信号对于RL训练的模型变得不可靠，因为RL通过轨迹级奖励而非词元似然度来塑造行为。我们提出了LaRA，一个逐层表示分析框架，用于检测RL后训练LLM中的污染。LaRA引入了三个互补指标，在受控扰动下测量扰动敏感性、方向坍塌和局部表示刚度。我们发现污染会在各层间产生渐进式几何偏差，包括放大的扰动敏感性、更强的方向坍塌和增强的局部刚度。基于我们的发现，我们还开发了一种污染检测协议，该协议聚合跨层和跨指标的表示级偏差。在RL训练的推理模型上的实验表明，我们的协议在污染检测方面优于现有的输出级基线。

查看原文

查看缓存全文

缓存时间: 2026/05/29 03:00

论文页面 - LaRA：用于检测强化学习后训练中数据污染的逐层表示分析

来源：https://huggingface.co/papers/2605.29888

摘要

LaRA 是一种逐层表示分析框架，通过分析模型各层的几何偏差，来检测强化学习后训练的大型语言模型中的数据污染。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 后训练已被证明能提升大型语言模型 (https://huggingface.co/papers?q=large%20language%20models) 的推理能力。然而，关于强化学习后训练中的数据污染 (https://huggingface.co/papers?q=data%20contamination) 问题，目前探索甚少，这可能会削弱训练过程本身的泛化能力和评估可靠性。现有的检测方法主要依赖于输出级信号（如似然或熵），但这些信号对于 RL 训练的模型不再可靠，因为 RL 通过轨迹级奖励而非 token 似然来塑造行为。我们提出 LaRA，一种用于检测 RL 后训练 LLM 中数据污染的逐层表示分析 (https://huggingface.co/papers?q=layer-wise%20representation%20analysis) 框架。LaRA 引入了三个互补指标，用于测量受控扰动下的扰动敏感性 (https://huggingface.co/papers?q=perturbation%20sensitivity)、方向坍塌 (https://huggingface.co/papers?q=directional%20collapse) 和局部表示刚性 (https://huggingface.co/papers?q=local%20representation%20rigidity)。我们发现，污染会在各层之间产生渐进式的几何偏差 (https://huggingface.co/papers?q=geometric%20deviation)，包括放大的扰动敏感性 (https://huggingface.co/papers?q=perturbation%20sensitivity)、更强的方向坍塌 (https://huggingface.co/papers?q=directional%20collapse) 以及增强的局部刚性。基于这些发现，我们还开发了一种污染检测协议，该协议聚合了跨层和跨指标的表示级偏差。在 RL 训练过的推理模型上的实验表明，我们的协议在污染检测方面优于现有的输出级基线。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29888)查看 PDF (https://arxiv.org/pdf/2605.29888)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29888)

在你的 agent 中获取此论文：

hf papers read 2605.29888

没有最新的 CLI？curl \-LsSf https://hf.co/cli/install.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.29888，即可从该页面链接到此论文。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.29888，即可从该页面链接到此论文。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.29888，即可从该页面链接到此论文。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中，即可从该页面链接到此论文。

相似文章

层表示动力学：跨嵌入器和基础大语言模型的实证研究

arXiv cs.LG

本文引入了层表示动力学（LRD），这是一个包含三个测量家族的框架，用于分析语言模型中各层隐藏状态的变化。应用于30个MTEB任务上的31个模型，LRD揭示了架构差异，并实现了无标签模型选择和推理时层剪枝。

RDP LoRA：基于几何轨迹的大语言模型参数高效适配层选择方法

Hugging Face Daily Papers

RDP-LoRA 通过几何轨迹分析与 Ramer-Douglas-Peucker 算法，自动挑出对参数高效微调最关键的层，效果优于全层及随机 LoRA 基线。

Hybrid-LoRA：桥接全微调与低秩适应的后训练方法

arXiv cs.LG

Hybrid-LoRA提出了一种框架，选择性地对一小部分模块进行全微调，同时对其他模块使用LoRA，在显著降低计算成本的同时实现了接近全微调的性能。实验表明，与现有参数高效基线方法相比，性能提升高达5.65%。

基于对数对齐比的训练时泛化诊断

arXiv cs.LG

本文介绍了对数对齐比（LAR），这是一种训练时度量，用于衡量参数-激活对齐度，并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明，LAR能够跟踪从记忆到泛化的转变，并在无需留出数据的情况下标记过拟合。

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

arXiv cs.CL

# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移来源：[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要经过安全调优的大语言模型（LLM）通常会回避承认人口统计差异，即使这种承认在事实上是正确的（例如，基于血统的

论文页面 - LaRA：用于检测强化学习后训练中数据污染的逐层表示分析

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

层表示动力学：跨嵌入器和基础大语言模型的实证研究

RDP LoRA：基于几何轨迹的大语言模型参数高效适配层选择方法

Hybrid-LoRA：桥接全微调与低秩适应的后训练方法

基于对数对齐比的训练时泛化诊断

DART：通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移

提交意见反馈