教人工智能模型说“我不确定”

MIT News — Artificial Intelligence 论文

摘要

MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。

<p dir="ltr" id="docs-internal-guid-57729c6d-7fff-dea4-bd4a-1d5b0ebbff74">自信具有说服力。但在人工智能系统中,它往往具有误导性。</p><p dir="ltr">当今最强大的推理模型与房间里声音最大的人有一个共同点:无论答案是正确还是猜测,它们都以同样坚定不移的确定性给出每一个答案。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员现已将这种过度自信追溯到这些模型训练方式中的一个特定缺陷,并开发出了一种无需牺牲准确率即可修复该缺陷的方法。</p><p dir="ltr">这项名为 RLCR(带校准奖励的强化学习,Reinforcement Learning with Calibration Rewards)的技术,训练语言模型在给出答案的同时,产生经过校准的置信度估计。除了想出答案外,模型还会思考其对答案的不确定性,并输出一个置信度分数。在多个基准测试的实验中,RLCR 将校准误差减少了高达 90%,同时在模型训练过的任务以及完全未见过的全新任务上,保持或提高了准确率。这项成果将在本月晚些时候举行的国际机器学习表示会议(International Conference on Learning Representations)上发表。</p><p dir="ltr">这一问题源于一个出奇简单的根源。支撑近期 AI 推理突破的强化学习(RL)方法——包括 OpenAI o1 等系统所使用的训练方法——奖励模型给出正确答案,并惩罚错误答案。中间没有灰色地带。通过仔细推理得出正确答案的模型,与碰巧猜对的模型获得相同的奖励。久而久之,这训练出模型对提出的每个问题都充满自信地回答,无论它们是否有充分的证据,还是实际上只是在掷硬币猜答案。</p><p dir="ltr">这种过度自信是有后果的。当模型部署在医学、法律、金融或任何用户根据 AI 输出做出决策的场景中时,一个无论实际确定性如何都表现出高置信度的系统,会以难以从外部察觉的方式变得不可靠。一个实际上只有一半时间正确,却声称“我有 95% 的把握”的模型,比直接给出错误答案的模型更危险,因为用户没有信号去寻求第二意见。</p><p dir="ltr">“标准的训练方法简单而强大,但它没有给模型任何表达不确定性或说‘我不知道’的动力,”麻省理工学院博士生、论文共同第一作者 Mehul Damani 说道,“因此,当模型不确定时,自然会学会去猜测。”</p><p dir="ltr">RLCR 通过在奖励函数中增加一项来解决这个问题:布雷尔分数(Brier score),这是一种成熟的衡量标准,用于惩罚模型陈述的置信度与实际准确率之间的差距。在训练过程中,模型学习同时推理问题本身及其自身的不确定性,共同产生答案和置信度估计。自信但错误的答案会受到惩罚。不必要地对正确答案表现出不确定性也会受到惩罚。</p><p dir="ltr">数学证明了这一点:研究团队正式证明了这种类型的奖励结构能保证模型既准确又校准良好。随后,他们在一系列问答和数学基准测试上,使用一个 70 亿参数的模型对该方法进行了测试,其中包括模型从未训练过的六个数据集。</p><p dir="ltr">结果显示出了一致的模式。与基础模型相比,标准强化学习训练实际上降低了校准能力,使模型更不擅长估计自身的不确定性。RLCR 扭转了这一效果,在没有任何准确率损失的情况下,大幅改善了校准能力。该方法还优于事后方法,即事后训练一个独立的分类器来分配置信度分数。“引人注目的是,普通的强化学习训练不仅无助于校准,反而对其有害,”麻省理工学院博士生、共同第一作者 Isha Puri 表示,“模型变得能力更强,同时也变得更加过度自信。”</p><p dir="ltr">团队还证明,RLCR 产生的置信度估计在推理阶段具有实际用途。当模型生成多个候选答案时,选择自报告置信度最高的答案,或在多数投票方案中按置信度加权投票,随着计算规模的扩大,既能提高准确率又能改善校准。</p><p dir="ltr">另一项额外发现表明,推理不确定性这一行为本身就有价值。研究人员对模型输出训练了分类器,发现将模型明确的不确定性推理包含在输入中,可以提高分类器的性能,特别是对于较小的模型。模型关于其知道和不知道的事物的自我反思性推理包含真实信息,而不仅仅是装饰。</p><p dir="ltr">除了 Damani 和 Puri 之外,论文的其他作者还包括 Stewart Slocum、Idan Shenfeld、Leshem Choshen 以及高级作者 Jacob Andreas 和 Yoon Kim。</p>
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:52

# 教 AI 模型学会说“我不确定” 来源:https://news.mit.edu/2026/teaching-ai-models-to-say-im-not-sure-0422 自信具有说服力。但在人工智能系统中,自信往往是误导性的。 当今最强大的推理模型有一个共同点,就像房间里声音最大的那个人:无论它们的答案是正确的还是在瞎猜,它们都以同样不可动摇的确定性给出答案。麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究人员已经追踪到这种过度自信源于训练过程中的一个特定缺陷,并开发了一种修复该方法而不牺牲任何准确率的新方法。 这种被称为 RLCR(基于校准奖励的强化学习,Reinforcement Learning with Calibration Rewards)的技术,训练语言模型在给出答案的同时产生经过校准的置信度估计。除了得出答案外,模型还会思考其对答案的不确定性,并输出一个置信度分数。在多个基准测试的实验中,RLCR 将校准误差降低了高达 90%,同时在模型受训的任务和从未见过的全新任务上都保持或提高了准确率。这项研究将在本月底举行的国际学习表征会议(ICLR)上展示。 这个问题追溯到一个出乎意料简单的根源。推动近期 AI 推理突破的强化学习(RL)方法,包括 OpenAI o1 系统使用的训练方法,奖励模型给出正确答案,并惩罚错误答案。没有中间地带。一个通过仔细推理得出正确答案的模型,与一个偶然猜对的模型获得的奖励相同。随着时间的推移,这会训练模型对提出的每个问题都自信地作答,无论它们是否有强有力的证据,还是在本质上抛硬币决定。 这种过度自信是有后果的。当模型被部署在医疗、法律、金融或任何用户基于 AI 输出做出决策的环境中时,一个无论实际确定性如何都表现出高度自信的系统,会以难以从外部检测到的方式变得不可靠。一个实际上只有一半时间正确却说“我有 95% 的把握”的模型,比一个只是答错的模型更危险,因为用户没有信号去寻求第二意见。 “标准的训练方法简单而强大,但它没有给模型表达不确定性或说‘我不知道’的动力,”麻省理工学院博士生及论文共同第一作者 Mehul Damani 说。(https://arxiv.org/abs/2507.16806)“因此,模型在不确定时自然会学会去猜测。” RLCR 通过在奖励函数中添加一项来解决这个问题:Brier 分数,这是一种成熟的度量标准,用于惩罚模型声明的置信度与实际准确率之间的差距。在训练过程中,模型学习同时推理问题和自身的不确定性,一起产生答案和置信度估计。自信但错误的答案会受到惩罚。不必要地不确定的正确答案也会受到惩罚。 数学证明了这一点:团队正式证明了这种奖励结构能保证模型既准确又经过良好校准。然后,他们在一个 70 亿参数的模型上测试了这种方法,涵盖了各种问答和数学基准,包括模型从未接受过训练的六个数据集。 结果显示出一个一致的模式。与基础模型相比,标准 RL 训练实际上降低了校准性能,使模型更难以估计自身的不确定性。RLCR 逆转了这一效应,在没有损失准确率的情况下显著改善了校准。该方法还优于事后方法,即事后训练一个独立的分类器来分配置信度分数。“引人注目的是,普通的 RL 训练不仅无助于校准。它实际上对校准有害,”麻省理工学院博士生及共同第一作者 Isha Puri 说。“模型在变得更有能力的同时也变得更加过度自信。” 团队还证明了 RLCR 产生的置信度估计在推理时具有实际用途。当模型生成多个候选答案时,选择自我报告置信度最高的答案,或在多数投票方案中根据置信度加权投票,随着计算规模的扩大,可以提高准确率和校准性能。 另一个额外的发现表明,推理不确定性本身具有价值。研究人员在模型输出上训练了分类器,发现输入中包含模型对不确定性的显式推理提高了分类器的性能,特别是对较小的模型而言。模型对自己知道和不知道的事情的自我反思推理包含真实的信息,而不仅仅是装饰。 除了 Damani 和 Puri 外,论文的其他作者还包括 Stewart Slocum、Idan Shenfeld、Leshem Choshen 以及高级作者 Jacob Andreas 和 Yoon Kim。

相似文章

教导模型用语言表达其不确定性

OpenAI Blog

OpenAI研究人员展示了GPT-3可以学会用自然语言表达关于其答案的标定不确定性,而无需使用模型logits。他们引入了CalibratedMath基准套件来评估这种能力。这种方法在分布漂移下表现出强劲的泛化能力,代表了模型首次表达关于其自身预测的良好标定口头不确定性的证据。

如何打造“谦逊”的AI

MIT News — Artificial Intelligence

MIT研究人员提出了一种用于医疗领域的“谦逊”AI框架,鼓励系统表达不确定性,并以协作副驾驶而非权威预言者的身份发挥作用。

忏悔如何让语言模型保持诚实

OpenAI Blog

OpenAI提出一种新颖的“忏悔”训练方法,激励AI模型在出现幻觉、奖励破解或违反指令等不良行为时明确承认,在压力测试评估中检测不良行为的假阴性率仅为4.4%。

一种更优的识别大语言模型过度自信的方法

MIT News — Artificial Intelligence

MIT研究人员开发了一种新方法,通过衡量相似模型间的跨模型分歧来识别过度自信的LLM,而非仅依赖自洽性指标。该方法能更好地捕捉认知不确定性,并在高风险应用中更准确地识别出不可靠的预测。

为什么语言模型会产生幻觉

OpenAI Blog

OpenAI发布研究指出,语言模型产生幻觉的原因在于标准的训练和评估程序奖励猜测而不是承认不确定性,并建议评估指标应该优先考虑对局限性的诚实认识而不是原始准确率。