推理的幻象:通过Zero-CoT截断揭示LLM中的规避性数据污染
摘要
本文提出Zero-CoT探针(ZCP),一种黑盒检测方法,通过截断思维链推理并比较扰动数据集上的性能来识别LLM中的规避性数据污染,实现了对直接和间接污染的强大检测。
查看缓存全文
缓存时间: 2026/05/25 18:39
论文页面 - 推理的幻觉:通过零思维链截断揭示大语言模型中的隐蔽数据污染
来源:https://huggingface.co/papers/2605.21856
摘要
提出了一种名为Zero-CoT Probe的黑盒检测方法,通过截断推理过程并比较原始数据集与扰动数据集上的表现,来识别大语言模型中的数据污染。
大语言模型(LLMs)在各类任务中展现出令人印象深刻的推理能力,但数据污染(https://huggingface.co/papers?q=data%20contamination)破坏了这些能力的客观评估。恶意模型发布者采用规避性或间接的污染策略(例如对基准数据进行释义以逃避现有检测方法、人为提升排行榜表现),进一步加剧了这一问题。现有方法难以可靠地检测此类隐蔽污染。本研究中,我们揭示了一个关键现象:模型生成的推理步骤会主动掩盖其底层的记忆化(https://huggingface.co/papers?q=memorization)。受此启发,我们提出了Zero-CoT Probe(https://huggingface.co/papers?q=Zero-CoT%20Probe)(ZCP),一种新颖的黑盒检测(https://huggingface.co/papers?q=black-box%20detection)方法,通过有意截断整个思维链(https://huggingface.co/papers?q=Chain-of-Thought)(CoT)过程来暴露潜在的捷径映射。为了进一步将记忆化(https://huggingface.co/papers?q=memorization)与模型内在的问题解决能力区分开,ZCP将模型在原始基准上的零思维链表现与经过同构扰动的参考数据集(https://huggingface.co/papers?q=isomorphically%20perturbed%20reference%20dataset)进行对比。此外,我们引入了污染置信度(https://huggingface.co/papers?q=Contamination%20Confidence)这一指标,用于量化污染的可能性和严重程度,超越了简单的二元分类。在先前识别的污染模型与经过专门微调的污染模型上进行的广泛实验表明,ZCP能够稳健地检测直接和规避性的数据污染(https://huggingface.co/papers?q=data%20contamination)。ZCP的代码可在 https://github.com/Yifan-Lan/zero-cot-probe 获取。
查看arXiv页面(https://arxiv.org/abs/2605.21856)查看PDF(https://arxiv.org/pdf/2605.21856)GitHub1(https://github.com/Yifan-Lan/zero-cot-probe)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.21856)
在您的智能体中获取此论文:
hf papers read 2605.21856
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到此论文
请在模型的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
请在数据集的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。
引用此论文的Spaces0
没有Space链接到此论文
请在Space的README.md中引用arxiv.org/abs/2605.21856以从此页面链接。
包含此论文的合集0
没有包含此论文的合集
请将此论文添加到一个合集(https://huggingface.co/new-collection)以从此页面链接。
相似文章
隐藏思维并非秘密:LLM中的推理痕迹暴露
本文介绍了推理暴露提示(REP)方法,该方法利用代码格式的阴影模型演示,从大语言模型中引出隐藏的推理痕迹,表明接口级别的痕迹隐藏不足以阻止提取有用的推理信号。
并行LLM推理实现抗偏差、稳健的概念抽象
本文提出了一种并行分块处理长文档的框架,利用LLMs减少累积偏差并提高证据可追溯性,显著降低了遗漏错误和无依据主张。
LGMT:基于逻辑的变形测试用于评估LLM推理可靠性
本文介绍了LGMT,这是一个利用一阶逻辑生成语义不变测试用例以评估LLM推理可靠性的框架。在六个LLM上的实验表明,LGMT暴露了静态基准遗漏的隐藏缺陷,提示评估应侧重于逻辑不变性下的鲁棒性。
偏离时回溯:缓解大语言模型推理蒸馏中的双重暴露偏差
本文介绍了一种名为Motab的新型大语言模型推理蒸馏流水线,通过动态监控学生生成并在偏离时回溯到安全状态并借助教师干预,同时缓解离策略和在线策略暴露偏差,取得了约3%的平均性能提升。
内存增强型LLM智能体中的状态污染
本文识别并研究了LLM智能体中的“记忆洗白”现象,即有毒或对抗性上下文被压缩成记忆摘要后,能够逃避标准毒性检测器,同时仍影响后续生成。文章引入了亚阈值传播间隙(SPG)来衡量隐藏的下游影响,并表明在摘要之前对有毒状态进行消毒比事后清理更有效。