detection-methods

标签

Cards List
#detection-methods

PARALLAX: 区分真实幻觉检测与基准构建伪影

arXiv cs.CL · 2026-05-19 缓存

本文揭示了LLM幻觉检测领域报道的许多进展实际上源于基准构建伪影,其中真实答案被嵌入到提示中,使得简单的文本相似度基线方法能够获得近乎完美的分数。通过大规模受控评估,作者证明,在适当控制下,大多数方法的表现接近随机水平,除了对上层隐藏状态的监督探针(如SAPLMA)以及他们提出的DRIFT。

0 人收藏 0 人点赞
#detection-methods

各类AI生成文本检测方法在面对释义攻击时的鲁棒性

arXiv cs.LG · 2026-05-15 缓存

本文研究了AI生成文本检测方法(微调后的RoBERTa、Binoculars、文本特征分析及其集成方法)在面对释义攻击时的鲁棒性。研究发现,包含Binoculars的集成方法效果最强,但在攻击中损失也最大,揭示了性能与鲁棒性之间的二分法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈