标签
本文通过实验评估了LLM生成的科学论文评审与人工评审之间的对齐程度,发现对齐有限且变化较大。研究还表明,作者可以通过迭代修改论文来“操控”LLM评审以提高分数,多达35%的论文的总体分数出现了统计显著提升。