标签
本文识别出分布偏移和规模约束是LLM基准审计中统计污染检测方法的关键失效模式。对27个模型评估三种范式的结果显示,在335次评估中仅有199次正确结果,表明存在系统性可靠性差距,使得这些方法无法替代透明数据溯源。