overconfidence

#overconfidence

大型语言模型中的置信度校准

arXiv cs.AI ↗ · 2026-05-26 缓存

本文分析了11个主流大型语言模型的置信度校准情况，发现它们普遍过于自信，尤其在困难任务上，而在简单任务上则信心不足。文章引入了LifeEval，这是一个用于评估不同难度级别下校准效果的测试。

0 人收藏 0 人点赞

#overconfidence

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

本文介绍了CUSP，一个用于评估AI系统预测科学进展能力的基准，发现当前模型表现出系统性的过度自信和领域依赖性局限，无法可靠地预测科学进步。

0 人收藏 0 人点赞

#overconfidence

MIT News — Artificial Intelligence ↗ · 2026-03-19 缓存

MIT研究人员开发了一种新方法，通过衡量相似模型间的跨模型分歧来识别过度自信的LLM，而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性，并在高风险应用中更准确地识别出不可靠的预测。

0 人收藏 0 人点赞