标签
本文基于报纸勘误,提出了一种人类书写文本中事实错误的分类法,并评估了LLMs在检测这些错误上的表现,发现即使像GPT-5.4这样的顶级模型,在词语级别的F1得分上也仅达到52%,凸显了该任务的难度。