推理的幻象：通过Zero-CoT截断揭示LLM中的规避性数据污染

Hugging Face Daily Papers 2026/05/21 00:00 论文

data-contamination llm reasoning chain-of-thought black-box-detection memorization

摘要

本文提出Zero-CoT探针（ZCP），一种黑盒检测方法，通过截断思维链推理并比较扰动数据集上的性能来识别LLM中的规避性数据污染，实现了对直接和间接污染的强大检测。

大型语言模型（LLMs）在广泛的任务中展示了令人印象深刻的推理能力，但数据污染削弱了这些能力的客观评估。恶意模型发布者使用规避性或间接污染策略（例如对基准数据进行改写以逃避现有检测方法并人为提升榜单表现）进一步加剧了这一问题。现有方法难以可靠地检测此类隐蔽污染。在这项工作中，我们揭示了一个关键现象：模型生成的推理步骤会主动掩盖其底层的记忆。受此启发，我们提出Zero-CoT探针（ZCP），一种新颖的黑盒检测方法，通过故意截断整个思维链（CoT）过程来暴露潜在的捷径映射。为了进一步将记忆与模型固有的问题解决能力分离开来，ZCP将模型在原始基准上的零思维链性能与同构扰动的参考数据集进行比较。此外，我们引入了污染置信度（Contamination Confidence），一种量化污染可能性和严重程度的指标，超越了简单的二元分类。在先前识别的污染模型和专门微调的污染模型上进行的大量实验表明，ZCP能够稳健地检测直接和规避性数据污染。ZCP的代码可在 https://github.com/Yifan-Lan/zero-cot-probe 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/25 18:39

论文页面 - 推理的幻觉：通过零思维链截断揭示大语言模型中的隐蔽数据污染

来源：https://huggingface.co/papers/2605.21856

摘要

提出了一种名为Zero-CoT Probe的黑盒检测方法，通过截断推理过程并比较原始数据集与扰动数据集上的表现，来识别大语言模型中的数据污染。

大语言模型（LLMs）在各类任务中展现出令人印象深刻的推理能力，但数据污染（https://huggingface.co/papers?q=data%20contamination）破坏了这些能力的客观评估。恶意模型发布者采用规避性或间接的污染策略（例如对基准数据进行释义以逃避现有检测方法、人为提升排行榜表现），进一步加剧了这一问题。现有方法难以可靠地检测此类隐蔽污染。本研究中，我们揭示了一个关键现象：模型生成的推理步骤会主动掩盖其底层的记忆化（https://huggingface.co/papers?q=memorization）。受此启发，我们提出了Zero-CoT Probe（https://huggingface.co/papers?q=Zero-CoT%20Probe）（ZCP），一种新颖的黑盒检测（https://huggingface.co/papers?q=black-box%20detection）方法，通过有意截断整个思维链（https://huggingface.co/papers?q=Chain-of-Thought）（CoT）过程来暴露潜在的捷径映射。为了进一步将记忆化（https://huggingface.co/papers?q=memorization）与模型内在的问题解决能力区分开，ZCP将模型在原始基准上的零思维链表现与经过同构扰动的参考数据集（https://huggingface.co/papers?q=isomorphically%20perturbed%20reference%20dataset）进行对比。此外，我们引入了污染置信度（https://huggingface.co/papers?q=Contamination%20Confidence）这一指标，用于量化污染的可能性和严重程度，超越了简单的二元分类。在先前识别的污染模型与经过专门微调的污染模型上进行的广泛实验表明，ZCP能够稳健地检测直接和规避性的数据污染（https://huggingface.co/papers?q=data%20contamination）。ZCP的代码可在 https://github.com/Yifan-Lan/zero-cot-probe 获取。

查看arXiv页面（https://arxiv.org/abs/2605.21856）查看PDF（https://arxiv.org/pdf/2605.21856）GitHub1（https://github.com/Yifan-Lan/zero-cot-probe）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.21856）

在您的智能体中获取此论文：

hf papers read 2605.21856

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

请在模型的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。

引用此论文的Spaces0

没有Space链接到此论文

请在Space的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。

包含此论文的合集0

没有包含此论文的合集

请将此论文添加到一个合集（https://huggingface.co/new-collection）以从此页面链接。

推理的幻象：通过Zero-CoT截断揭示LLM中的规避性数据污染

论文页面 - 推理的幻觉：通过零思维链截断揭示大语言模型中的隐蔽数据污染

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的合集0

相似文章

LLM推理研究中的奇怪现象：我们正在尝试去除思维链痕迹

隐藏思维并非秘密：LLM中的推理痕迹暴露

并行LLM推理实现抗偏差、稳健的概念抽象

解码推理型LLM中隐藏的欺骗：用于欺骗审计的激活解释器

LGMT：基于逻辑的变形测试用于评估LLM推理可靠性

提交意见反馈