preference-data

#preference-data

超越Shapley：一种基于影响力的LLM对齐与评估数据审计管线

arXiv cs.LG ↗ · 3天前缓存

介绍了一种可扩展的、仅需推理的数据估值管线，该管线通过近似Shapley值来审计LLM对齐数据集，将手动审计搜索空间减少了99.1%，并揭示了HelpSteer2和HH-RLHF中隐藏的标签错误。

0 人收藏 0 人点赞

#preference-data

arXiv cs.AI ↗ · 2026-07-21 缓存

本文识别并形式化了RLHF偏好数据中的评估者状态偏差，即标注者的情绪状态可能混淆偏好标签。它提出了一个包含可证伪预测的审计框架来检测此类偏差。

0 人收藏 0 人点赞

#preference-data

arXiv cs.LG ↗ · 2026-06-26 缓存

介绍了DualEval框架，该框架联合校准模型能力与项目难度/锐度，以统一静态基准和竞技场式评估，从而实现更可靠的排名以及基准压缩和异常检测等下游应用。

0 人收藏 0 人点赞

#preference-data

TLDR AI ↗ · 2026-06-12 缓存

这项研究介绍了一种方法，利用可解释性在训练前预测DPO将从偏好数据集中放大或抑制哪些行为，从而实现数据调试以防止不良影响。该技术达到了R²=0.9的预测准确率，并集成到了Goodfire的Silico平台中。

0 人收藏 0 人点赞

#preference-data

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

RUBRIC-ARROW 提出了一种交替式奖励建模框架，通过减少平局并利用成对偏好数据改进了基于评分标准的方法，在非可验证领域为LLM后训练实现了具有竞争力的准确率和收益。

0 人收藏 0 人点赞