TruthfulQA:衡量模型模仿人类虚假信息的程度

OpenAI Blog 论文

摘要

# TruthfulQA:衡量模型模仿人类虚假信息的程度 来源:[https://openai.com/index/truthfulqa/](https://openai.com/index/truthfulqa/) ## 摘要 我们提出了一个基准来衡量语言模型在生成问题答案时是否真实。该基准包含817个问题,跨越38个类别,包括卫生、法律、金融和政治。我们精心设计了一些问题,其中一些人会因为错误的信念或误解而错误地回答。要表现良好,模型必须

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:55

# TruthfulQA:衡量模型如何模仿人类错误 来源:https://openai.com/index/truthfulqa/ ## 摘要 我们提出了一个基准来衡量语言模型在生成问题答案时的真实性。该基准包含 817 个问题,涵盖 38 个类别,包括健康、法律、金融和政治等领域。我们精心设计了一些问题,这些问题中有些会因为人类的错误信念或误解而被人类错误地回答。为了获得良好的表现,模型必须避免生成从模仿人类文本中学到的虚假答案。我们测试了 GPT-3、GPT-Neo/J、GPT-2 和基于 T5 的模型。最好的模型在 58% 的问题上是真实的,而人类的表现是 94%。模型生成了许多虚假答案,这些答案模仿了流行的误解,有可能欺骗人类。最大的模型通常是最不真实的。这与其他自然语言处理任务形成对比,在这些任务中,性能会随着模型规模的增加而提高。然而,如果虚假答案是从训练分布中学到的,这个结果是意料之中的。我们建议,仅通过扩大模型规模对改进真实性的帮助较小,使用除了网络文本模仿之外的训练目标进行微调更加有前景。

相似文章

推出 SimpleQA

OpenAI Blog

OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。

忏悔如何让语言模型保持诚实

OpenAI Blog

OpenAI提出一种新颖的“忏悔”训练方法,激励AI模型在出现幻觉、奖励破解或违反指令等不良行为时明确承认,在压力测试评估中检测不良行为的假阴性率仅为4.4%。

WebGPT: 通过网络浏览提高语言模型的事实准确性

OpenAI Blog

OpenAI 对 GPT-3 进行了微调,使其能够使用基于文本的网络浏览器来搜索、检索和引用源资料,从而更准确地回答开放式问题。该模型在 ELI5 数据集的问题上的表现优于人类演示者 56% 的时间,但在 TruthfulQA 等分布外任务上存在局限性。

为什么语言模型会产生幻觉

OpenAI Blog

OpenAI发布研究指出,语言模型产生幻觉的原因在于标准的训练和评估程序奖励猜测而不是承认不确定性,并建议评估指标应该优先考虑对局限性的诚实认识而不是原始准确率。