ai-peer-review

标签

Cards List
#ai-peer-review

无需隐藏提示!仅通过呈现层面的修改即可操纵AI同行评审

arXiv cs.CL · 2天前 缓存

本论文证明,仅通过修改呈现层面的内容(如摘要、框架和叙述)而不改变任何科学证据,就能操纵AI同行评审,攻击成功率达75.1%。作者提出了对抗性重构——一种闭环攻击方法,利用AI评审者倾向于被印象打动而非被说服的特点,并发布了一个用于测试鲁棒性的基准。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈