human-written-text

#human-written-text

人类书写文本中事实错误的实证分析及其应用

arXiv cs.CL ↗ · 6天前缓存

本文基于报纸勘误，提出了一种人类书写文本中事实错误的分类法，并评估了LLMs在检测这些错误上的表现，发现即使像GPT-5.4这样的顶级模型，在词语级别的F1得分上也仅达到52%，凸显了该任务的难度。

0 人收藏 0 人点赞