标签
本文表明,微调后的AI文本检测器放大了预训练的典型性轴,而非学习AI与人类之间的界限,原始编码器投影通常达到或超过微调后的性能。
本文研究了AI生成文本检测方法(微调后的RoBERTa、Binoculars、文本特征分析及其集成方法)在面对释义攻击时的鲁棒性。研究发现,包含Binoculars的集成方法效果最强,但在攻击中损失也最大,揭示了性能与鲁棒性之间的二分法。
本文介绍了MELD,这是一种用于AI生成文本的检测器,它通过使用辅助头进行多任务学习(涵盖生成器家族、攻击类型和源域)来提高鲁棒性。MELD在RAID基准测试中表现出色,并在对抗攻击下保持低误报率。