推理的幻象:通过Zero-CoT截断揭示LLM中的规避性数据污染

Hugging Face Daily Papers 论文

摘要

本文提出Zero-CoT探针(ZCP),一种黑盒检测方法,通过截断思维链推理并比较扰动数据集上的性能来识别LLM中的规避性数据污染,实现了对直接和间接污染的强大检测。

大型语言模型(LLMs)在广泛的任务中展示了令人印象深刻的推理能力,但数据污染削弱了这些能力的客观评估。恶意模型发布者使用规避性或间接污染策略(例如对基准数据进行改写以逃避现有检测方法并人为提升榜单表现)进一步加剧了这一问题。现有方法难以可靠地检测此类隐蔽污染。在这项工作中,我们揭示了一个关键现象:模型生成的推理步骤会主动掩盖其底层的记忆。受此启发,我们提出Zero-CoT探针(ZCP),一种新颖的黑盒检测方法,通过故意截断整个思维链(CoT)过程来暴露潜在的捷径映射。为了进一步将记忆与模型固有的问题解决能力分离开来,ZCP将模型在原始基准上的零思维链性能与同构扰动的参考数据集进行比较。此外,我们引入了污染置信度(Contamination Confidence),一种量化污染可能性和严重程度的指标,超越了简单的二元分类。在先前识别的污染模型和专门微调的污染模型上进行的大量实验表明,ZCP能够稳健地检测直接和规避性数据污染。ZCP的代码可在 https://github.com/Yifan-Lan/zero-cot-probe 获取。
查看原文
查看缓存全文

缓存时间: 2026/05/25 18:39

论文页面 - 推理的幻觉:通过零思维链截断揭示大语言模型中的隐蔽数据污染

来源:https://huggingface.co/papers/2605.21856

摘要

提出了一种名为Zero-CoT Probe的黑盒检测方法,通过截断推理过程并比较原始数据集与扰动数据集上的表现,来识别大语言模型中的数据污染。

大语言模型(LLMs)在各类任务中展现出令人印象深刻的推理能力,但数据污染(https://huggingface.co/papers?q=data%20contamination)破坏了这些能力的客观评估。恶意模型发布者采用规避性或间接的污染策略(例如对基准数据进行释义以逃避现有检测方法、人为提升排行榜表现),进一步加剧了这一问题。现有方法难以可靠地检测此类隐蔽污染。本研究中,我们揭示了一个关键现象:模型生成的推理步骤会主动掩盖其底层的记忆化(https://huggingface.co/papers?q=memorization)。受此启发,我们提出了Zero-CoT Probe(https://huggingface.co/papers?q=Zero-CoT%20Probe)(ZCP),一种新颖的黑盒检测(https://huggingface.co/papers?q=black-box%20detection)方法,通过有意截断整个思维链(https://huggingface.co/papers?q=Chain-of-Thought)(CoT)过程来暴露潜在的捷径映射。为了进一步将记忆化(https://huggingface.co/papers?q=memorization)与模型内在的问题解决能力区分开,ZCP将模型在原始基准上的零思维链表现与经过同构扰动的参考数据集(https://huggingface.co/papers?q=isomorphically%20perturbed%20reference%20dataset)进行对比。此外,我们引入了污染置信度(https://huggingface.co/papers?q=Contamination%20Confidence)这一指标,用于量化污染的可能性和严重程度,超越了简单的二元分类。在先前识别的污染模型与经过专门微调的污染模型上进行的广泛实验表明,ZCP能够稳健地检测直接和规避性的数据污染(https://huggingface.co/papers?q=data%20contamination)。ZCP的代码可在 https://github.com/Yifan-Lan/zero-cot-probe 获取。

查看arXiv页面(https://arxiv.org/abs/2605.21856)查看PDF(https://arxiv.org/pdf/2605.21856)GitHub1(https://github.com/Yifan-Lan/zero-cot-probe)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.21856)

在您的智能体中获取此论文:

hf papers read 2605.21856

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到此论文

请在模型的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

请在数据集的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。

引用此论文的Spaces0

没有Space链接到此论文

请在Space的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。

包含此论文的合集0

没有包含此论文的合集

请将此论文添加到一个合集(https://huggingface.co/new-collection)以从此页面链接。

相似文章

隐藏思维并非秘密:LLM中的推理痕迹暴露

arXiv cs.AI

本文介绍了推理暴露提示(REP)方法,该方法利用代码格式的阴影模型演示,从大语言模型中引出隐藏的推理痕迹,表明接口级别的痕迹隐藏不足以阻止提取有用的推理信号。

LGMT:基于逻辑的变形测试用于评估LLM推理可靠性

arXiv cs.AI

本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。

内存增强型LLM智能体中的状态污染

arXiv cs.AI

本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。