detection-methods

#detection-methods

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL ↗ · 2026-05-19 缓存

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影，其中真实答案被嵌入到提示中，使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估，作者证明，在适当控制下，大多数方法的表现接近随机水平，除了对上层隐藏状态的监督探针（如SAPLMA）以及他们提出的DRIFT。

0 人收藏 0 人点赞

#detection-methods

arXiv cs.LG ↗ · 2026-05-15 缓存

本文研究了AI生成文本检测方法（微调后的RoBERTa、Binoculars、文本特征分析及其集成方法）在面对释义攻击时的鲁棒性。研究发现，包含Binoculars的集成方法效果最强，但在攻击中损失也最大，揭示了性能与鲁棒性之间的二分法。

0 人收藏 0 人点赞