最佳AI“科学评论员”也是最有自信的——一个关于校准度与技能的基准测试

Reddit r/artificial 2026/06/05 16:16 工具

benchmark calibration llm-evaluation science-critique confidence-calibration brier-score open-source

摘要

文章介绍了Refute基准测试，该测试评估LLM在评论科学论文摘要方面的能力及其校准度。结果显示，最好的批评模型在犯错时往往也最有自信。

披露：我参与了以下基准测试的工作，因此提前说明。我们一直在测试LLM是否能评论最新的科学论文摘要——捕捉其中的植入缺陷、过度主张和缺失证据——同时，分别评估它们对自己判断的校准度（使用严格适当的Brier分数评估置信度）。不断出现的模式是：最擅长*发现问题*的模型，在遗漏问题时也是最自信地犯错。批评技能和校准度似乎是不同维度，而非同一维度。原始准确性与知道何时弃权之间也存在明显差距。该基准是开放的（Apache-2.0），如果你有兴趣研究可以查看： Leaderboard: https://huggingface.co/spaces/BGPT-OFFICIAL/refute-leaderboard Dataset: https://huggingface.co/datasets/BGPT-OFFICIAL/refute 好奇其他人如何看待测量校准度与原始能力之间的权衡——适当的评分规则就足够了吗，还是也需要明确的弃权指标？

查看原文

最佳AI“科学评论员”也是最有自信的——一个关于校准度与技能的基准测试

相似文章

SoundnessBench：你的AI科学家真能区分研究创意的好坏吗？

大型语言模型中的置信度校准

关于AI评审员的局限与机遇：联合45位专家科学家评审Nature系列期刊论文的评审意见

最重要的AI失败可能是虚假自信，而非错误答案

教人工智能模型说“我不确定”

提交意见反馈