overconfidence

标签

Cards List
#overconfidence

大型语言模型中的置信度校准

arXiv cs.AI · 2026-05-26 缓存

本文分析了11个主流大型语言模型的置信度校准情况,发现它们普遍过于自信,尤其在困难任务上,而在简单任务上则信心不足。文章引入了LifeEval,这是一个用于评估不同难度级别下校准效果的测试。

0 人收藏 0 人点赞
#overconfidence

利用人工智能预测科学进展

Hugging Face Daily Papers · 2026-05-21 缓存

本文介绍了CUSP,一个用于评估AI系统预测科学进展能力的基准,发现当前模型表现出系统性的过度自信和领域依赖性局限,无法可靠地预测科学进步。

0 人收藏 0 人点赞
#overconfidence

一种更优的识别大语言模型过度自信的方法

MIT News — Artificial Intelligence · 2026-03-19 缓存

MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈