教导模型用语言表达其不确定性

OpenAI Blog 论文

摘要

OpenAI研究人员展示了GPT-3可以学会用自然语言表达关于其答案的标定不确定性,而无需使用模型logits。他们引入了CalibratedMath基准套件来评估这种能力。这种方法在分布漂移下表现出强劲的泛化能力,代表了模型首次表达关于其自身预测的良好标定口头不确定性的证据。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 教导模型用语言表达其不确定性 来源: https://openai.com/index/teaching-models-to-express-their-uncertainty-in-words/ 我们展示了 GPT-3 模型可以学会用自然语言表达对自己答案的不确定性——无需使用模型对数。当给定一个问题时,模型既生成答案,也生成置信水平(例如"90% 置信度"或"高置信度")。这些水平映射到经过很好校准的概率。该模型在分布偏移下也保持适度的校准,并对其自己答案中的不确定性敏感,而不是模仿人类示例。据我们所知,这是首次证明模型能够用自然语言表达关于自己答案的经过校准的不确定性。为了测试校准,我们引入了 CalibratedMath 任务套件。我们比较了用语言表达的不确定性("口头概率")与从模型对数中提取的不确定性的校准。两种不确定性都能够在分布偏移下泛化校准。我们还提供证据表明,GPT-3 泛化校准的能力取决于与其答案上的认识论不确定性相关的预训练潜在表征。

相似文章

教人工智能模型说“我不确定”

MIT News — Artificial Intelligence

MIT CSAIL 研究人员提出 RLCR 方法,在强化学习中引入布雷尔分数(Brier scores),训练 AI 模型输出经过校准的置信度估计,在显著降低过度自信的同时,不牺牲准确率。

WebGPT: 通过网络浏览提高语言模型的事实准确性

OpenAI Blog

OpenAI 对 GPT-3 进行了微调,使其能够使用基于文本的网络浏览器来搜索、检索和引用源资料,从而更准确地回答开放式问题。该模型在 ELI5 数据集的问题上的表现优于人类演示者 56% 的时间,但在 TruthfulQA 等分布外任务上存在局限性。

解决数学应用题

OpenAI Blog

OpenAI 训练了一个使用验证器的系统来解决小学数学应用题,准确率达到儿童水平的 90%,性能几乎是微调后的 GPT-3 的两倍。该方法通过训练验证器来评估候选解决方案并选择最佳方案,解决了语言模型在多步推理中的弱点。

为什么语言模型会产生幻觉

OpenAI Blog

OpenAI发布研究指出,语言模型产生幻觉的原因在于标准的训练和评估程序奖励猜测而不是承认不确定性,并建议评估指标应该优先考虑对局限性的诚实认识而不是原始准确率。