ai-peer-review

#ai-peer-review

无需隐藏提示！仅通过呈现层面的修改即可操纵AI同行评审

arXiv cs.CL ↗ · 2天前缓存

本论文证明，仅通过修改呈现层面的内容（如摘要、框架和叙述）而不改变任何科学证据，就能操纵AI同行评审，攻击成功率达75.1%。作者提出了对抗性重构——一种闭环攻击方法，利用AI评审者倾向于被印象打动而非被说服的特点，并发布了一个用于测试鲁棒性的基准。

0 人收藏 0 人点赞