brier-score

#brier-score

ConfidenceBench：评估大型语言模型中的置信度校准

arXiv cs.AI ↗ · 昨天缓存

ConfidenceBench是一个新的基准测试，使用Brier分数评估大型语言模型中的口头置信度估计，揭示了准确性和校准之间的分歧，即使是高精度的模型也可能严重校准不良。

0 人收藏 0 人点赞

#brier-score

Reddit r/artificial ↗ · 2026-06-05

文章介绍了Refute基准测试，该测试评估LLM在评论科学论文摘要方面的能力及其校准度。结果显示，最好的批评模型在犯错时往往也最有自信。

0 人收藏 0 人点赞

#brier-score

MIT News — Artificial Intelligence ↗ · 2026-04-22 缓存

MIT CSAIL 研究人员提出 RLCR 方法，在强化学习中引入布雷尔分数（Brier scores），训练 AI 模型输出经过校准的置信度估计，在显著降低过度自信的同时，不牺牲准确率。

0 人收藏 0 人点赞