data-contamination

标签

Cards List
#data-contamination

@TheAhmadOsman: https://x.com/TheAhmadOsman/status/2064724789952958663

X AI KOLs Following · 4天前 缓存

详细解释了为什么在基准测试、评估集或测试集上进行训练是机器学习中的大忌,这会破坏衡量泛化能力的能力。文章强调了干净的评估协议的重要性,并警告不要进行“benchmaxxing”。

0 人收藏 0 人点赞
#data-contamination

LLMs能否被约束在过往?通过基于回忆的提示改进知识截止

arXiv cs.CL · 2026-06-05 缓存

本文提出了基于回忆的提示策略(Self-Recall和Question-Recall),以提升LLM对知识截止的遵循能力,在反事实问题上优于现有方法,并引入多截止历史事件基准(MHEB)用于鲁棒性评估。

0 人收藏 0 人点赞
#data-contamination

LaRA: 逐层表示分析用于检测RL后训练中的数据污染

Hugging Face Daily Papers · 2026-05-28 缓存

LaRA是一个逐层表示分析框架,通过测量模型各层的几何偏差来检测RL后训练LLM中的数据污染,优于输出级基线。

0 人收藏 0 人点赞
#data-contamination

TSFMAudit: 时间序列基础模型预测中的数据污染审计

arXiv cs.LG · 2026-05-27 缓存

本文介绍了TSFMAudit,这是首个用于审计时间序列基础模型预训练数据污染的方法,通过探针适应动态来检测异常高效的微调,从而指示先前的数据暴露。

0 人收藏 0 人点赞
#data-contamination

大语言模型中的预训练数据暴露:成员推理、数据污染及安全影响综述

arXiv cs.CL · 2026-05-27 缓存

统一综述大语言模型中的预训练数据暴露(PDE),涵盖成员推理、数据污染和安全影响,并回顾了攻击与防御方法。

0 人收藏 0 人点赞
#data-contamination

多大型语言模型基准测试的可证明联合去污

arXiv cs.LG · 2026-05-22 缓存

提出联合包络符合选择(JECS),一种用于多模型基准去污的符合程序,可证明地控制全局污染率,同时保持比基线更高的统计功效。

0 人收藏 0 人点赞
#data-contamination

推理的幻象:通过Zero-CoT截断揭示LLM中的规避性数据污染

Hugging Face Daily Papers · 2026-05-21 缓存

本文提出Zero-CoT探针(ZCP),一种黑盒检测方法,通过截断思维链推理并比较扰动数据集上的性能来识别LLM中的规避性数据污染,实现了对直接和间接污染的强大检测。

0 人收藏 0 人点赞
#data-contamination

大型语言模型能否可靠地纠正低资源ASR中的错误?一项关于西弗里斯兰语的污染感知案例研究

arXiv cs.CL · 2026-05-20 缓存

本文研究了基于LLM的生成式错误修正(GER)在低资源西弗里斯兰语ASR中的应用,采用污染感知评估方法,使用私有数据集表明GPT-5.1将错误降低至低于oracle水平。

0 人收藏 0 人点赞
#data-contamination

推理者还是翻译者?税法中的污染感知评估与神经符号鲁棒性

arXiv cs.AI · 2026-05-18 缓存

本文实证研究了LLMs在税法中的法律推理,表明数据污染会夸大性能,而神经符号混合系统比单体LLMs提供更可靠和稳健的泛化能力。

0 人收藏 0 人点赞
#data-contamination

向 Open ASR Leaderboard 添加反 Benchmaxxing 机制

Hugging Face Blog · 2026-05-06 缓存

Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集,以防止 benchmaxxing 和测试集污染,同时保留公开数据用于默认的平均 WER 计算。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈