人类书写文本中事实错误的实证分析及其应用
摘要
本文基于报纸勘误,提出了一种人类书写文本中事实错误的分类法,并评估了LLMs在检测这些错误上的表现,发现即使像GPT-5.4这样的顶级模型,在词语级别的F1得分上也仅达到52%,凸显了该任务的难度。
arXiv:2606.27959v1 公告类型:新
摘要:事实错误检测(Factual Error Detection, FED)是指识别给定文本中事实错误片段的任务,这一直被认为是一个重要的研究问题。然而,随着大语言模型(LLMs)的迅速崛起,研究注意力已转向LLM生成文本特有的事实错误(即幻觉)及其检测。因此,人类书写文本中事实错误的检测相对被忽视。为弥补这一空白,我们首先通过分析报纸文章(一种具有代表性的人类书写且语法错误极少的文本来源)的勘误,归纳出人类导致的事实错误的分类法。我们的分析揭示了一些典型类别,如汉字转换错误和数词分类器错误,这些在现有的幻觉基准测试中并未受到关注。基于该分类法,我们随后在合成的逼真测试用例以及真实勘误上评估了原始LLMs的FED能力。实验结果表明,即使是高性能LLM(如GPT-5.4)在合成评估数据上的词语级F1得分也仅为52%,凸显了该任务的难度。此外,通过检测难度进行的详细分析揭示了FED的当前状态。
查看缓存全文
缓存时间: 2026/06/29 05:24
# 人类撰写文本中事实错误的实证分析及其应用 来源:https://arxiv.org/abs/2606.27959 查看PDF(https://arxiv.org/pdf/2606.27959) > 摘要:事实错误检测(Factual Error Detection, FED)是一项识别给定文本中事实不正确片段的任务,长期以来一直被视为重要的研究问题。然而,随着大语言模型(LLMs)的迅速崛起,研究重心已转向LLM生成文本特有的事实错误(即幻觉)及其检测。因此,对人类撰写文本中事实错误的检测相对被忽视。为填补这一空白,我们首先通过分析报纸文章(一种保证由人类撰写且语法错误极少、具有代表性的文本来源)的勘误,梳理出人类诱发事实错误的分类体系。分析揭示出一些典型类别,例如汉字误转换和量词错误,这些在现有的幻觉基准测试中并未得到关注。基于该分类体系,我们随后在合成的现实测试用例和真实勘误中评估了普通LLMs的FED能力。实验结果表明,即便是GPT-5.4这样高性能的LLM,在合成评估数据上仅达到词级F1值52%,凸显了该任务的难度。此外,依据检测难度的详细分析揭示了FED的当前发展状况。 ## 提交历史 来自:Shotaro Ishihara \[查看邮箱(https://arxiv.org/show-email/238eaff6/2606.27959)\] **\[v1\]**2026年6月26日星期五 11:03:18 UTC(220 KB)
相似文章
修正FOLIO和MALLS:经过验证的标注与聚焦人工重标的LLM辅助框架
本文对自然语言到一阶逻辑数据集FOLIO和MALLS进行了系统的人工审查,分别发现39%和36%的形式化错误。它发布了修正后的标准答案和一个辅助人工重标的LLM框架,该框架将审查工作量减少到少于24%的实例即可达到90%的准确率。
FACTS Grounding:评估大语言模型事实性的新基准
DeepMind推出FACTS Grounding,这是一个包含1,719个示例的全面基准测试,用于评估大语言模型在源材料中的事实依据能力以及避免幻觉的准确性。该基准包括一个公开数据集和一个在线Kaggle排行榜,用于追踪LLM在事实准确性和事实依据任务上的表现。
WebGPT: 通过网络浏览提高语言模型的事实准确性
OpenAI 对 GPT-3 进行了微调,使其能够使用基于文本的网络浏览器来搜索、检索和引用源资料,从而更准确地回答开放式问题。该模型在 ELI5 数据集的问题上的表现优于人类演示者 56% 的时间,但在 TruthfulQA 等分布外任务上存在局限性。
大型语言模型能否可靠地纠正低资源ASR中的错误?一项关于西弗里斯兰语的污染感知案例研究
本文研究了基于LLM的生成式错误修正(GER)在低资源西弗里斯兰语ASR中的应用,采用污染感知评估方法,使用私有数据集表明GPT-5.1将错误降低至低于oracle水平。
事实性观点能否在大型语言模型中被编辑(操纵)?
本文介绍了用于评估大语言模型中编辑事实性意见能力的FactualOpinionEditing with Evidence (FOE)基准,并提出了一种自生成证据对齐方法来改善意见-证据对齐。