谁在进行NLP注释?2018-2025年间人类注释报告的大规模评估
摘要
本文对2018-2025年间自然语言处理领域的人类注释报告进行了大规模审计,结果显示关键细节的记录虽然随时间有所改善,但仍不一致,并为此提供了框架和建议,以改进报告质量。
查看缓存全文
缓存时间: 2026/06/02 15:35
论文页面 - NLP中谁在标注?2018年至2025年人工标注报告的大规模评估
来源:https://huggingface.co/papers/2606.02255 作者:
,
,
,
,
,
,
,
,
,
,
摘要
对NLP领域人工标注报告的大规模审计揭示了关键标注细节的文件记录不一致,尽管随时间有所改进,但在可重复性和可靠性方面仍存在持续差距。
人工标注(https://huggingface.co/papers?q=Human%20annotation)是大量NLP研究(https://huggingface.co/papers?q=NLP%20research)的实证基础,涉及从数据集构建到模型评估,但论文往往未明确说明标注由谁完成以及标注过程如何控制。我们首次对主要NLP会议中的人工标注(https://huggingface.co/papers?q=human%20annotation)报告进行大规模、任务级别的审计,探究哪些标注细节被记录、哪些缺失,以及报告方式如何随时间、主题、会议和人工判断预期用途而变化。我们引入了一个统一的标注报告实践分类法,并针对Annotated-gold(一个包含41篇论文和72个标注任务、经人工仲裁的金标准数据集)验证了LLM辅助提取(https://huggingface.co/papers?q=LLM-assisted%20extraction)流水线,其中最佳模型与仲裁标签达到与人类相当的一致性,Krippendorff’s alpha(https://huggingface.co/papers?q=Krippendorff%27s%20alpha)为0.606,而人类间一致性为0.585。利用该流水线,我们构建了Annotated-llm(https://huggingface.co/papers?q=Annotated-llm)数据集,涵盖2018-2025年ACL会议论文,共计2,667个从1,603篇论文中提取的标注任务。我们发现论文经常报告操作细节,如招募策略、标注者专业知识和标注量,但常遗漏评估标注有效性(https://huggingface.co/papers?q=annotation%20validity)所需的细节,包括培训、语言能力、报酬、社会人口统计、仲裁和一致性值,尤其在模型评估研究中。我们的结果表明,NLP中的标注报告(https://huggingface.co/papers?q=annotation%20reporting)随时间有所改善,但仍不均衡,并建立了一个可扩展的框架及最低限度报告建议,旨在使人标注(https://huggingface.co/papers?q=human%20annotation)更可靠、可重复和可解释。
查看arXiv页面(https://arxiv.org/abs/2606.02255)查看PDF(https://arxiv.org/pdf/2606.02255)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02255)
在您的代理中获取本篇论文:
hf papers read 2606.02255
没有最新的CLI?curl \-LsSf https://hf.co/cli/install.sh \| bash
引用本论文的模型0
尚无模型引用本论文
在模型README.md中引用arxiv.org/abs/2606.02255以从此页链接。
引用本论文的数据集0
尚无数据集引用本论文
在数据集README.md中引用arxiv.org/abs/2606.02255以从此页链接。
引用本论文的Space0
尚无Space引用本论文
在Space README.md中引用arxiv.org/abs/2606.02255以从此页链接。
包含本论文的收藏0
尚无收藏包含本论文
将本论文添加到收藏(https://huggingface.co/new-collection)以从此页链接。
相似文章
@vintcessun: 你读的NLP论文真的知道标注者是谁吗?审计2018-2025年ACL论文发现:标注者培训、语言能力、报酬等关键细节常缺失,尤其模型评估研究。这直接威胁研究可复现性和可靠性。本文提出统一分类法+LLM自动提取流水线,在2667个标注任务上评…
A large-scale audit of ACL papers from 2018-2025 reveals that key annotation details (training, language proficiency, compensation, etc.) are often missing, threatening reproducibility. The authors propose a unified taxonomy and an LLM-assisted extraction pipeline evaluated on 2,667 annotation tasks.
谁与何?利用语言特征和标注者特征分析标注差异
本文对四个有害语言检测数据集进行了大规模分析,考察标注者特征与语言特征如何相互作用以影响标注差异。文章强调了交叉性效应的影响,并警示不要将不同数据集的发现简单泛化。
低资源NLP评估中的注释稀缺悖论:加速十年与新兴约束
这项批判性综述审视了低资源NLP评估中的注释稀缺悖论——模型快速扩展的速度超过了真实评估所需的人类基础设施,并讨论了新兴应对措施在公平性和有效性方面的权衡。
Ghost Annotator:通过共形预测探索内容审核中人类标签变化的框架
Ghost Annotator框架结合了共形预测与协同过滤,对内容审核中的LLM行为与人类标签变化进行建模,揭示了大型模型中存在的结构性人口统计偏见。
通过可解释性理解标注员安全策略
本文介绍了苹果公司提出的标注员策略模型(APMs),该模型利用可解释性技术,无需额外标注努力即可从标注行为中推断标注员内部的安全策略。作者证明,APMs 能够准确地建模这些策略,并区分标注分歧的来源,例如操作失误、策略模糊性和价值观多元性。