标签
详细解释了为什么在基准测试、评估集或测试集上进行训练是机器学习中的大忌,这会破坏衡量泛化能力的能力。文章强调了干净的评估协议的重要性,并警告不要进行“benchmaxxing”。
本文提出了基于回忆的提示策略(Self-Recall和Question-Recall),以提升LLM对知识截止的遵循能力,在反事实问题上优于现有方法,并引入多截止历史事件基准(MHEB)用于鲁棒性评估。
LaRA是一个逐层表示分析框架,通过测量模型各层的几何偏差来检测RL后训练LLM中的数据污染,优于输出级基线。
本文介绍了TSFMAudit,这是首个用于审计时间序列基础模型预训练数据污染的方法,通过探针适应动态来检测异常高效的微调,从而指示先前的数据暴露。
统一综述大语言模型中的预训练数据暴露(PDE),涵盖成员推理、数据污染和安全影响,并回顾了攻击与防御方法。
提出联合包络符合选择(JECS),一种用于多模型基准去污的符合程序,可证明地控制全局污染率,同时保持比基线更高的统计功效。
本文提出Zero-CoT探针(ZCP),一种黑盒检测方法,通过截断思维链推理并比较扰动数据集上的性能来识别LLM中的规避性数据污染,实现了对直接和间接污染的强大检测。
本文研究了基于LLM的生成式错误修正(GER)在低资源西弗里斯兰语ASR中的应用,采用污染感知评估方法,使用私有数据集表明GPT-5.1将错误降低至低于oracle水平。
本文实证研究了LLMs在税法中的法律推理,表明数据污染会夸大性能,而神经符号混合系统比单体LLMs提供更可靠和稳健的泛化能力。
Hugging Face 宣布向 Open ASR Leaderboard 引入来自 Appen 和 DataoceanAI 的私有高质量数据集,以防止 benchmaxxing 和测试集污染,同时保留公开数据用于默认的平均 WER 计算。