标签
本文介绍了两个新的捷克语语料库Hlava Cor和Hlava AD,旨在研究共指与篇章关系中人工标注的变异性。这些语料库包含多重标注和标注者解释,实现了60-65%的标注者间一致性,并揭示了理解上的系统性差异。
我们介绍了Prague Dependency Treebank的第二个整合版本,这是一个400万词的人工多语言标注资源,涵盖形态、句法、语义、共指和话语,以及兼容的词典。
本文提出人口统计条件融合嵌入,用于建模语言中的视角主义社会意义,通过将注释者人口统计信息整合到NLP系统中,展现出相对于纯文本基线的持续改进。
A large-scale audit of ACL papers from 2018-2025 reveals that key annotation details (training, language proficiency, compensation, etc.) are often missing, threatening reproducibility. The authors propose a unified taxonomy and an LLM-assisted extraction pipeline evaluated on 2,667 annotation tasks.
介绍 ReasoningFlow,一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架,从而能够细粒度分析推理行为(如自我反思和回溯)。基于对数千条轨迹的手动和自动标注,揭示了模型之间的结构相似性,并且大多数错误步骤并不贡献于最终答案。
本文研究了LLM的内化先验如何影响零样本标注性能,发现近三分之二的错误抵抗基于提示的修正,并引入了定义特定熟悉度(DSF)作为比记忆化指标更好的预测因子。
本文通过解决现有资源中的问题(包括表面目标实现和单一参考评估),优化了L2韩语的基于词的语法错误标注,并展示了使用基于KoBART的纠错方法所取得的改进。
本文介绍了一种基于偏见意识的评估框架,用于检测大语言模型中的反自闭症能力歧视语言,该框架使用基于注释者立场的心理测量加权真实值。研究发现,大语言模型经常将社区重新赋予的语言错误分类为能力歧视,并依赖表面关键词匹配而非上下文。
本文介绍了AraHopeCorpus,这是首个针对阿拉伯社交媒体中希望言论的标注数据集,数据来自关于加沙战争的YouTube评论。文章提供了详细的标注框架和分析,表明希望性语言在危机话语中占主导地位。
本文提出了一种迭代式调节框架,通过改进和重用标注指南来提升基于LLM的标注性能,并在使用GPT、Gemini和DeepSeek模型的生物医学NER任务上进行了验证。
一篇介绍org-remark的博文,这是一个Emacs包,用于就地批注文件,通过将笔记与源文件保持关联,解决了数字笔记中的解耦问题。
介绍 DiscoExplorer,一个用于搜索和可视化跨16种语言的篇章关系数据集的开源网络接口,使 DISRPT 共享任务数据可公开访问。
roboflow/supervision 是一个用于计算机视觉的开源 Python 工具包,提供可重用的数据加载、注释和实时处理构建块,并支持与模型无关地集成主流库。