最佳AI“科学评论员”也是最有自信的——一个关于校准度与技能的基准测试

Reddit r/artificial 工具

摘要

文章介绍了Refute基准测试,该测试评估LLM在评论科学论文摘要方面的能力及其校准度。结果显示,最好的批评模型在犯错时往往也最有自信。

披露:我参与了以下基准测试的工作,因此提前说明。我们一直在测试LLM是否能评论最新的科学论文摘要——捕捉其中的植入缺陷、过度主张和缺失证据——同时,分别评估它们对自己判断的校准度(使用严格适当的Brier分数评估置信度)。不断出现的模式是:最擅长*发现问题*的模型,在遗漏问题时也是最自信地犯错。批评技能和校准度似乎是不同维度,而非同一维度。原始准确性与知道何时弃权之间也存在明显差距。该基准是开放的(Apache-2.0),如果你有兴趣研究可以查看: Leaderboard: https://huggingface.co/spaces/BGPT-OFFICIAL/refute-leaderboard Dataset: https://huggingface.co/datasets/BGPT-OFFICIAL/refute 好奇其他人如何看待测量校准度与原始能力之间的权衡——适当的评分规则就足够了吗,还是也需要明确的弃权指标?
查看原文

相似文章

大型语言模型中的置信度校准

arXiv cs.AI

本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。

最重要的AI失败可能是虚假自信,而非错误答案

Reddit r/ArtificialInteligence

本文认为,最危险的AI失败并非源于错误答案,而是系统基于不完整的数据、过时的上下文或糟糕的假设,以虚假自信行事。这表明AI评估应优先考虑处理不确定性的能力,而非原始智能。

教人工智能模型说“我不确定”

MIT News — Artificial Intelligence

MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。