TruthfulQA:衡量模型模仿人类虚假信息的程度
摘要
# TruthfulQA:衡量模型模仿人类虚假信息的程度 来源:[https://openai.com/index/truthfulqa/](https://openai.com/index/truthfulqa/) ## 摘要 我们提出了一个基准来衡量语言模型在生成问题答案时是否真实。该基准包含817个问题,跨越38个类别,包括卫生、法律、金融和政治。我们精心设计了一些问题,其中一些人会因为错误的信念或误解而错误地回答。要表现良好,模型必须
查看缓存全文
缓存时间: 2026/04/20 14:55
相似文章
推出 SimpleQA
OpenAI 推出 SimpleQA,一个新的事实性基准数据集,包含 4,326 个简短事实性问题,旨在评估前沿语言模型在提供准确答案而不产生幻觉的能力。该数据集通过双独立标注、严格标准实现高质量,估计错误率仅为 ~3%,GPT-4o 得分不到 40%。
忏悔如何让语言模型保持诚实
OpenAI提出一种新颖的“忏悔”训练方法,激励AI模型在出现幻觉、奖励破解或违反指令等不良行为时明确承认,在压力测试评估中检测不良行为的假阴性率仅为4.4%。
FACTS基准测试套件:系统性评估大语言模型的事实性
Google DeepMind与Kaggle联合推出了FACTS基准测试套件,这是一套涵盖参数化知识、检索增强、多模态和 grounding 的综合评估体系,用于系统性衡量大语言模型的事实性。
WebGPT: 通过网络浏览提高语言模型的事实准确性
OpenAI 对 GPT-3 进行了微调,使其能够使用基于文本的网络浏览器来搜索、检索和引用源资料,从而更准确地回答开放式问题。该模型在 ELI5 数据集的问题上的表现优于人类演示者 56% 的时间,但在 TruthfulQA 等分布外任务上存在局限性。
为什么语言模型会产生幻觉
OpenAI发布研究指出,语言模型产生幻觉的原因在于标准的训练和评估程序奖励猜测而不是承认不确定性,并建议评估指标应该优先考虑对局限性的诚实认识而不是原始准确率。