data-contamination

#data-contamination

@TheAhmadOsman: https://x.com/TheAhmadOsman/status/2064724789952958663

X AI KOLs Following ↗ · 4天前缓存

详细解释了为什么在基准测试、评估集或测试集上进行训练是机器学习中的大忌，这会破坏衡量泛化能力的能力。文章强调了干净的评估协议的重要性，并警告不要进行“benchmaxxing”。

0 人收藏 0 人点赞

#data-contamination

LLMs能否被约束在过往？通过基于回忆的提示改进知识截止

arXiv cs.CL ↗ · 2026-06-05 缓存

本文提出了基于回忆的提示策略（Self-Recall和Question-Recall），以提升LLM对知识截止的遵循能力，在反事实问题上优于现有方法，并引入多截止历史事件基准（MHEB）用于鲁棒性评估。

0 人收藏 0 人点赞

#data-contamination

LaRA: 逐层表示分析用于检测RL后训练中的数据污染

Hugging Face Daily Papers ↗ · 2026-05-28 缓存

LaRA是一个逐层表示分析框架，通过测量模型各层的几何偏差来检测RL后训练LLM中的数据污染，优于输出级基线。

0 人收藏 0 人点赞

#data-contamination

TSFMAudit: 时间序列基础模型预测中的数据污染审计

arXiv cs.LG ↗ · 2026-05-27 缓存

本文介绍了TSFMAudit，这是首个用于审计时间序列基础模型预训练数据污染的方法，通过探针适应动态来检测异常高效的微调，从而指示先前的数据暴露。

0 人收藏 0 人点赞

#data-contamination

大语言模型中的预训练数据暴露：成员推理、数据污染及安全影响综述

arXiv cs.CL ↗ · 2026-05-27 缓存

统一综述大语言模型中的预训练数据暴露（PDE），涵盖成员推理、数据污染和安全影响，并回顾了攻击与防御方法。

0 人收藏 0 人点赞

#data-contamination

多大型语言模型基准测试的可证明联合去污

arXiv cs.LG ↗ · 2026-05-22 缓存

提出联合包络符合选择（JECS），一种用于多模型基准去污的符合程序，可证明地控制全局污染率，同时保持比基线更高的统计功效。

0 人收藏 0 人点赞

#data-contamination

推理的幻象：通过Zero-CoT截断揭示LLM中的规避性数据污染

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

本文提出Zero-CoT探针（ZCP），一种黑盒检测方法，通过截断思维链推理并比较扰动数据集上的性能来识别LLM中的规避性数据污染，实现了对直接和间接污染的强大检测。

0 人收藏 0 人点赞

#data-contamination

大型语言模型能否可靠地纠正低资源ASR中的错误？一项关于西弗里斯兰语的污染感知案例研究

arXiv cs.CL ↗ · 2026-05-20 缓存

本文研究了基于LLM的生成式错误修正（GER）在低资源西弗里斯兰语ASR中的应用，采用污染感知评估方法，使用私有数据集表明GPT-5.1将错误降低至低于oracle水平。

0 人收藏 0 人点赞

#data-contamination

推理者还是翻译者？税法中的污染感知评估与神经符号鲁棒性

arXiv cs.AI ↗ · 2026-05-18 缓存

本文实证研究了LLMs在税法中的法律推理，表明数据污染会夸大性能，而神经符号混合系统比单体LLMs提供更可靠和稳健的泛化能力。

0 人收藏 0 人点赞

#data-contamination

向 Open ASR Leaderboard 添加反 Benchmaxxing 机制

Hugging Face Blog ↗ · 2026-05-06 缓存

Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集，以防止 benchmaxxing 和测试集污染，同时保留公开数据用于默认的平均 WER 计算。

0 人收藏 0 人点赞

data-contamination

提交意见反馈