人类书写文本中事实错误的实证分析及其应用

arXiv cs.CL 2026/06/29 04:00 论文

factual-error-detection human-written-text llm-evaluation taxonomy nlp error-analysis

摘要

本文基于报纸勘误，提出了一种人类书写文本中事实错误的分类法，并评估了LLMs在检测这些错误上的表现，发现即使像GPT-5.4这样的顶级模型，在词语级别的F1得分上也仅达到52%，凸显了该任务的难度。

arXiv:2606.27959v1 公告类型：新摘要：事实错误检测（Factual Error Detection, FED）是指识别给定文本中事实错误片段的任务，这一直被认为是一个重要的研究问题。然而，随着大语言模型（LLMs）的迅速崛起，研究注意力已转向LLM生成文本特有的事实错误（即幻觉）及其检测。因此，人类书写文本中事实错误的检测相对被忽视。为弥补这一空白，我们首先通过分析报纸文章（一种具有代表性的人类书写且语法错误极少的文本来源）的勘误，归纳出人类导致的事实错误的分类法。我们的分析揭示了一些典型类别，如汉字转换错误和数词分类器错误，这些在现有的幻觉基准测试中并未受到关注。基于该分类法，我们随后在合成的逼真测试用例以及真实勘误上评估了原始LLMs的FED能力。实验结果表明，即使是高性能LLM（如GPT-5.4）在合成评估数据上的词语级F1得分也仅为52%，凸显了该任务的难度。此外，通过检测难度进行的详细分析揭示了FED的当前状态。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:24

# 人类撰写文本中事实错误的实证分析及其应用
来源：https://arxiv.org/abs/2606.27959
查看PDF（https://arxiv.org/pdf/2606.27959）

> 摘要：事实错误检测（Factual Error Detection, FED）是一项识别给定文本中事实不正确片段的任务，长期以来一直被视为重要的研究问题。然而，随着大语言模型（LLMs）的迅速崛起，研究重心已转向LLM生成文本特有的事实错误（即幻觉）及其检测。因此，对人类撰写文本中事实错误的检测相对被忽视。为填补这一空白，我们首先通过分析报纸文章（一种保证由人类撰写且语法错误极少、具有代表性的文本来源）的勘误，梳理出人类诱发事实错误的分类体系。分析揭示出一些典型类别，例如汉字误转换和量词错误，这些在现有的幻觉基准测试中并未得到关注。基于该分类体系，我们随后在合成的现实测试用例和真实勘误中评估了普通LLMs的FED能力。实验结果表明，即便是GPT-5.4这样高性能的LLM，在合成评估数据上仅达到词级F1值52%，凸显了该任务的难度。此外，依据检测难度的详细分析揭示了FED的当前发展状况。

## 提交历史

来自：Shotaro Ishihara \[查看邮箱（https://arxiv.org/show-email/238eaff6/2606.27959）\] **\[v1\]**2026年6月26日星期五 11:03:18 UTC（220 KB）

人类书写文本中事实错误的实证分析及其应用

相似文章

修正FOLIO和MALLS：经过验证的标注与聚焦人工重标的LLM辅助框架

FACTS Grounding：评估大语言模型事实性的新基准

WebGPT: 通过网络浏览提高语言模型的事实准确性

大型语言模型能否可靠地纠正低资源ASR中的错误？一项关于西弗里斯兰语的污染感知案例研究

事实性观点能否在大型语言模型中被编辑（操纵）？

提交意见反馈