gameability

标签

Cards List
#gameability

Review Arcade:论LLM评审的人类对齐性与可操控性

arXiv cs.AI · 6天前 缓存

本文通过实验评估了LLM生成的科学论文评审与人工评审之间的对齐程度,发现对齐有限且变化较大。研究还表明,作者可以通过迭代修改论文来“操控”LLM评审以提高分数,多达35%的论文的总体分数出现了统计显著提升。

0 人收藏 0 人点赞
#gameability

Review Arcade:论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers · 2026-05-27 缓存

本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈