LaRA: 逐层表示分析用于检测RL后训练中的数据污染
摘要
LaRA是一个逐层表示分析框架,通过测量模型各层的几何偏差来检测RL后训练LLM中的数据污染,优于输出级基线。
查看缓存全文
缓存时间: 2026/05/29 03:00
论文页面 - LaRA:用于检测强化学习后训练中数据污染的逐层表示分析
来源:https://huggingface.co/papers/2605.29888
摘要
LaRA 是一种逐层表示分析框架,通过分析模型各层的几何偏差,来检测强化学习后训练的大型语言模型中的数据污染。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) 后训练已被证明能提升大型语言模型 (https://huggingface.co/papers?q=large%20language%20models) 的推理能力。然而,关于强化学习后训练中的数据污染 (https://huggingface.co/papers?q=data%20contamination) 问题,目前探索甚少,这可能会削弱训练过程本身的泛化能力和评估可靠性。现有的检测方法主要依赖于输出级信号(如似然或熵),但这些信号对于 RL 训练的模型不再可靠,因为 RL 通过轨迹级奖励而非 token 似然来塑造行为。我们提出 LaRA,一种用于检测 RL 后训练 LLM 中数据污染的逐层表示分析 (https://huggingface.co/papers?q=layer-wise%20representation%20analysis) 框架。LaRA 引入了三个互补指标,用于测量受控扰动下的扰动敏感性 (https://huggingface.co/papers?q=perturbation%20sensitivity)、方向坍塌 (https://huggingface.co/papers?q=directional%20collapse) 和局部表示刚性 (https://huggingface.co/papers?q=local%20representation%20rigidity)。我们发现,污染会在各层之间产生渐进式的几何偏差 (https://huggingface.co/papers?q=geometric%20deviation),包括放大的扰动敏感性 (https://huggingface.co/papers?q=perturbation%20sensitivity)、更强的方向坍塌 (https://huggingface.co/papers?q=directional%20collapse) 以及增强的局部刚性。基于这些发现,我们还开发了一种污染检测协议,该协议聚合了跨层和跨指标的表示级偏差。在 RL 训练过的推理模型上的实验表明,我们的协议在污染检测方面优于现有的输出级基线。
查看 arXiv 页面 (https://arxiv.org/abs/2605.29888)查看 PDF (https://arxiv.org/pdf/2605.29888)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29888)
在你的 agent 中获取此论文:
hf papers read 2605.29888
没有最新的 CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.29888,即可从该页面链接到此论文。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.29888,即可从该页面链接到此论文。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.29888,即可从该页面链接到此论文。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中,即可从该页面链接到此论文。
相似文章
层表示动力学:跨嵌入器和基础大语言模型的实证研究
本文引入了层表示动力学(LRD),这是一个包含三个测量家族的框架,用于分析语言模型中各层隐藏状态的变化。应用于30个MTEB任务上的31个模型,LRD揭示了架构差异,并实现了无标签模型选择和推理时层剪枝。
RDP LoRA:基于几何轨迹的大语言模型参数高效适配层选择方法
RDP-LoRA 通过几何轨迹分析与 Ramer-Douglas-Peucker 算法,自动挑出对参数高效微调最关键的层,效果优于全层及随机 LoRA 基线。
Hybrid-LoRA:桥接全微调与低秩适应的后训练方法
Hybrid-LoRA提出了一种框架,选择性地对一小部分模块进行全微调,同时对其他模块使用LoRA,在显著降低计算成本的同时实现了接近全微调的性能。实验表明,与现有参数高效基线方法相比,性能提升高达5.65%。
基于对数对齐比的训练时泛化诊断
本文介绍了对数对齐比(LAR),这是一种训练时度量,用于衡量参数-激活对齐度,并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明,LAR能够跟踪从记忆到泛化的转变,并在无需留出数据的情况下标记过拟合。
DART:通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移
# 通过蒸馏-审计-修复训练缓解差异感知大语言模型中的有害漂移 来源:[https://arxiv.org/html/2604.16845](https://arxiv.org/html/2604.16845) Ziwen Pan1 Zihan Liang111footnotemark:1 Jad Kabbara2 Ali Emami1 1埃默里大学 2麻省理工学院 {ziwen\.pan, zihan\.liang, ali\.emami}@emory\.edu, jkabbara@mit\.edu ###### 摘要 经过安全调优的大语言模型(LLM)通常会回避承认人口统计差异,即使这种承认在事实上是正确的(例如,基于血统的