data-contamination

#data-contamination

@TheAhmadOsman: https://x.com/TheAhmadOsman/status/2064724789952958663

X AI KOLs Following ↗ · 5d ago Cached

A detailed explanation of why training on benchmarks, evals, or test sets is a cardinal sin in ML, corrupting the ability to measure generalization. The article emphasizes the importance of clean evaluation protocols and warns against benchmaxxing.

0 favorites 0 likes

#data-contamination

Can LLMs Be Constrained to the Past? Improving Knowledge Cutoff through Recall-Based Prompting

arXiv cs.CL ↗ · 2026-06-05 Cached

This paper proposes recall-based prompting strategies (Self-Recall and Question-Recall) to improve LLM knowledge cutoff adherence, outperforming existing methods on counterfactual questions and introducing a Multi-cutoff Historical Event Benchmark (MHEB) for robustness evaluation.

0 favorites 0 likes

#data-contamination

LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

Hugging Face Daily Papers ↗ · 2026-05-28 Cached

LaRA is a layer-wise representation analysis framework that detects data contamination in RL post-trained LLMs by measuring geometric deviations across model layers, outperforming output-level baselines.

0 favorites 0 likes

#data-contamination

TSFMAudit: Data Contamination Auditing in Forecasting Time Series Foundation Models

arXiv cs.LG ↗ · 2026-05-27 Cached

This paper introduces TSFMAudit, the first method for auditing pretraining data contamination in time series foundation models, using probe adaptation dynamics to detect unusually efficient fine-tuning that indicates prior exposure.

0 favorites 0 likes

#data-contamination

Pretraining Data Exposure in Large Language Models: A Survey of Membership Inference, Data Contamination, and Security Implications

arXiv cs.CL ↗ · 2026-05-27 Cached

A unified survey of pretraining data exposure (PDE) in large language models, covering membership inference, data contamination, and security implications, with a review of attack and defense methods.

0 favorites 0 likes

#data-contamination

Provable Joint Decontamination for Benchmarking Multiple Large Language Models

arXiv cs.LG ↗ · 2026-05-22 Cached

Proposes Joint Envelope Conformal Selection (JECS), a conformal procedure for multi-model benchmark decontamination that provably controls global contamination rate while maintaining higher power than baselines.

0 favorites 0 likes

#data-contamination

The Illusion of Reasoning: Exposing Evasive Data Contamination in LLMs via Zero-CoT Truncation

Hugging Face Daily Papers ↗ · 2026-05-21 Cached

This paper introduces Zero-CoT Probe (ZCP), a black-box detection method that identifies evasive data contamination in LLMs by truncating chain-of-thought reasoning and comparing performance on perturbed datasets, achieving robust detection of both direct and indirect contamination.

0 favorites 0 likes

#data-contamination

Can Large Language Models Reliably Correct Errors in Low-Resource ASR? A Contamination-Aware Case Study on West Frisian

arXiv cs.CL ↗ · 2026-05-20 Cached

This paper investigates LLM-based generative error correction (GER) for low-resource West Frisian ASR, using a contamination-aware evaluation with a private dataset to show that GPT-5.1 reduces errors beyond oracle levels.

0 favorites 0 likes

#data-contamination

Reasoners or Translators? Contamination-aware Evaluation and Neuro-Symbolic Robustness in Tax Law

arXiv cs.AI ↗ · 2026-05-18 Cached

This paper empirically studies LLMs' legal reasoning in tax law, showing that data contamination inflates performance and that neuro-symbolic hybrid systems offer more reliable and robust generalization than monolithic LLMs.

0 favorites 0 likes

#data-contamination

Adding Benchmaxxer Repellant to the Open ASR Leaderboard

Hugging Face Blog ↗ · 2026-05-06 Cached

Hugging Face announces the addition of private, high-quality datasets from Appen and DataoceanAI to the Open ASR Leaderboard to prevent benchmaxxing and test-set contamination, while maintaining public data for the default average WER calculation.

0 favorites 0 likes

data-contamination

Submit Feedback