谁在进行NLP注释？2018-2025年间人类注释报告的大规模评估

Hugging Face Daily Papers 2026/06/01 00:00 论文

摘要

本文对2018-2025年间自然语言处理领域的人类注释报告进行了大规模审计，结果显示关键细节的记录虽然随时间有所改善，但仍不一致，并为此提供了框架和建议，以改进报告质量。

人类注释是许多自然语言处理研究的经验基础，从数据集构建到模型评估，但论文往往未能明确说明注释由谁产生以及注释过程如何控制。我们首次对主要NLP会议中的人类注释报告进行了大规模、任务级别的审计，探究哪些注释细节被记录、哪些缺失，以及报告如何随时间、主题、会议以及人类判断的预期用途而变化。我们引入了一个统一的注释报告实践分类法，并针对Annotated-gold（一个由41篇论文和72个注释任务组成的人工判定黄金标准）验证了基于LLM的提取管线，其中最佳模型与判定标签达到了人类可比的协议，Krippendorff's alpha值为0.606，而人类之间的一致性为0.585。利用该管线，我们构建了Annotated-llm数据集，涵盖2018-2025年间ACL会议的论文，从1,603篇论文中提取了2,667个注释任务。我们发现，论文经常报告操作细节，如招募策略、注释者专业知识和注释数量，但往往省略评估注释有效性所需的细节，包括培训、语言熟练度、报酬、社会人口学信息、判定和一致性值，尤其是在模型评估研究中。我们的结果表明，NLP中的注释报告已随时间改善，但仍存在不均衡现象，并为此建立了一个可扩展的框架和最低报告建议，旨在使人类注释更加可靠、可重复和可解释。

查看原文

查看缓存全文

缓存时间: 2026/06/02 15:35

论文页面 - NLP中谁在标注？2018年至2025年人工标注报告的大规模评估

来源：https://huggingface.co/papers/2606.02255 作者：

摘要

对NLP领域人工标注报告的大规模审计揭示了关键标注细节的文件记录不一致，尽管随时间有所改进，但在可重复性和可靠性方面仍存在持续差距。

人工标注（https://huggingface.co/papers?q=Human%20annotation）是大量NLP研究（https://huggingface.co/papers?q=NLP%20research）的实证基础，涉及从数据集构建到模型评估，但论文往往未明确说明标注由谁完成以及标注过程如何控制。我们首次对主要NLP会议中的人工标注（https://huggingface.co/papers?q=human%20annotation）报告进行大规模、任务级别的审计，探究哪些标注细节被记录、哪些缺失，以及报告方式如何随时间、主题、会议和人工判断预期用途而变化。我们引入了一个统一的标注报告实践分类法，并针对Annotated-gold（一个包含41篇论文和72个标注任务、经人工仲裁的金标准数据集）验证了LLM辅助提取（https://huggingface.co/papers?q=LLM-assisted%20extraction）流水线，其中最佳模型与仲裁标签达到与人类相当的一致性，Krippendorff’s alpha（https://huggingface.co/papers?q=Krippendorff%27s%20alpha）为0.606，而人类间一致性为0.585。利用该流水线，我们构建了Annotated-llm（https://huggingface.co/papers?q=Annotated-llm）数据集，涵盖2018-2025年ACL会议论文，共计2,667个从1,603篇论文中提取的标注任务。我们发现论文经常报告操作细节，如招募策略、标注者专业知识和标注量，但常遗漏评估标注有效性（https://huggingface.co/papers?q=annotation%20validity）所需的细节，包括培训、语言能力、报酬、社会人口统计、仲裁和一致性值，尤其在模型评估研究中。我们的结果表明，NLP中的标注报告（https://huggingface.co/papers?q=annotation%20reporting）随时间有所改善，但仍不均衡，并建立了一个可扩展的框架及最低限度报告建议，旨在使人标注（https://huggingface.co/papers?q=human%20annotation）更可靠、可重复和可解释。

查看arXiv页面（https://arxiv.org/abs/2606.02255）查看PDF（https://arxiv.org/pdf/2606.02255）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.02255）

在您的代理中获取本篇论文：

hf papers read 2606.02255

没有最新的CLI？curl \-LsSf https://hf.co/cli/install.sh \| bash

引用本论文的模型0

尚无模型引用本论文

在模型README.md中引用arxiv.org/abs/2606.02255以从此页链接。

引用本论文的数据集0

尚无数据集引用本论文

在数据集README.md中引用arxiv.org/abs/2606.02255以从此页链接。

引用本论文的Space0

尚无Space引用本论文

在Space README.md中引用arxiv.org/abs/2606.02255以从此页链接。

包含本论文的收藏0

尚无收藏包含本论文

将本论文添加到收藏（https://huggingface.co/new-collection）以从此页链接。

相似文章

@vintcessun: 你读的NLP论文真的知道标注者是谁吗？审计2018-2025年ACL论文发现：标注者培训、语言能力、报酬等关键细节常缺失，尤其模型评估研究。这直接威胁研究可复现性和可靠性。本文提出统一分类法+LLM自动提取流水线，在2667个标注任务上评…

X AI KOLs Timeline

A large-scale audit of ACL papers from 2018-2025 reveals that key annotation details (training, language proficiency, compensation, etc.) are often missing, threatening reproducibility. The authors propose a unified taxonomy and an LLM-assisted extraction pipeline evaluated on 2,667 annotation tasks.

谁在进行NLP注释？2018-2025年间人类注释报告的大规模评估

论文页面 - NLP中谁在标注？2018年至2025年人工标注报告的大规模评估

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Space0

包含本论文的收藏0

相似文章

谁与何？利用语言特征和标注者特征分析标注差异

低资源NLP评估中的注释稀缺悖论：加速十年与新兴约束

DocAnnot——利用生成式AI驱动的自动标注加速关键信息提取数据集的创建

Ghost Annotator：通过共形预测探索内容审核中人类标签变化的框架

提交意见反馈