automated-reviewing

#automated-reviewing

Review Arcade：论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文利用1000份真实的ACL 2025投稿，研究了LLM生成的评审与人类判断的对齐情况。研究发现，两者的一致性有限，且在不同模型和提示词下存在不稳定性。此外，文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审，并呼吁就其在应对日益增长的投稿量中的作用展开讨论。

0 人收藏 0 人点赞