最佳AI“科学评论员”也是最有自信的——一个关于校准度与技能的基准测试
摘要
文章介绍了Refute基准测试,该测试评估LLM在评论科学论文摘要方面的能力及其校准度。结果显示,最好的批评模型在犯错时往往也最有自信。
披露:我参与了以下基准测试的工作,因此提前说明。我们一直在测试LLM是否能评论最新的科学论文摘要——捕捉其中的植入缺陷、过度主张和缺失证据——同时,分别评估它们对自己判断的校准度(使用严格适当的Brier分数评估置信度)。不断出现的模式是:最擅长*发现问题*的模型,在遗漏问题时也是最自信地犯错。批评技能和校准度似乎是不同维度,而非同一维度。原始准确性与知道何时弃权之间也存在明显差距。该基准是开放的(Apache-2.0),如果你有兴趣研究可以查看:
Leaderboard: https://huggingface.co/spaces/BGPT-OFFICIAL/refute-leaderboard
Dataset: https://huggingface.co/datasets/BGPT-OFFICIAL/refute
好奇其他人如何看待测量校准度与原始能力之间的权衡——适当的评分规则就足够了吗,还是也需要明确的弃权指标?
相似文章
SoundnessBench:你的AI科学家真能区分研究创意的好坏吗?
SoundnessBench是一个包含1,099个机器学习研究提案的基准测试,用于评估大语言模型评判方法论有效性的能力,结果发现当前模型普遍存在乐观偏差。
大型语言模型中的置信度校准
本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。
关于AI评审员的局限与机遇:联合45位专家科学家评审Nature系列期刊论文的评审意见
一项研究评估了AI评审员(GPT-5.2、Claude Opus 4.5、Gemini 3.0 Pro)与45位人类专家评审员对Nature系列期刊论文的评审表现,发现AI评审员在综合评审质量上可以超越评分最高的人类评审员,尽管其准确性略低,但能提出更多重要问题。
最重要的AI失败可能是虚假自信,而非错误答案
本文认为,最危险的AI失败并非源于错误答案,而是系统基于不完整的数据、过时的上下文或糟糕的假设,以虚假自信行事。这表明AI评估应优先考虑处理不确定性的能力,而非原始智能。
教人工智能模型说“我不确定”
MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。