annotation

标签

#annotation

介绍Hlava Cor和Hlava AD语料库：共指与篇章关系中的人工标注变异性

arXiv cs.CL ↗ · 2026-06-25 缓存

本文介绍了两个新的捷克语语料库Hlava Cor和Hlava AD，旨在研究共指与篇章关系中人工标注的变异性。这些语料库包含多重标注和标注者解释，实现了60-65%的标注者间一致性，并揭示了理解上的系统性差异。

0 人收藏 0 人点赞

#annotation

Prague Dependency Treebank -- 整合版 2.0：丰富复杂标注方案

arXiv cs.CL ↗ · 2026-06-24 缓存

我们介绍了Prague Dependency Treebank的第二个整合版本，这是一个400万词的人工多语言标注资源，涵盖形态、句法、语义、共指和话语，以及兼容的词典。

0 人收藏 0 人点赞

#annotation

通过人口统计条件融合嵌入学习视角主义社会意义

arXiv cs.CL ↗ · 2026-06-08 缓存

本文提出人口统计条件融合嵌入，用于建模语言中的视角主义社会意义，通过将注释者人口统计信息整合到NLP系统中，展现出相对于纯文本基线的持续改进。

0 人收藏 0 人点赞

#annotation

@vintcessun: 你读的NLP论文真的知道标注者是谁吗？审计2018-2025年ACL论文发现：标注者培训、语言能力、报酬等关键细节常缺失，尤其模型评估研究。这直接威胁研究可复现性和可靠性。本文提出统一分类法+LLM自动提取流水线，在2667个标注任务上评…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

A large-scale audit of ACL papers from 2018-2025 reveals that key annotation details (training, language proficiency, compensation, etc.) are often missing, threatening reproducibility. The authors propose a unified taxonomy and an LLM-assisted extraction pipeline evaluated on 2,667 annotation tasks.

0 人收藏 0 人点赞

#annotation

ReasoningFlow: 用于理解LLM推理轨迹的篇章结构

arXiv cs.CL ↗ · 2026-06-05 缓存

介绍 ReasoningFlow，一个将大语言模型推理轨迹的篇章结构捕获为有向无环图的框架，从而能够细粒度分析推理行为（如自我反思和回溯）。基于对数千条轨迹的手动和自动标注，揭示了模型之间的结构相似性，并且大多数错误步骤并不贡献于最终答案。

0 人收藏 0 人点赞

#annotation

论大语言模型适应性的局限：模型内化先验对标注任务性能的影响

arXiv cs.CL ↗ · 2026-06-02 缓存

本文研究了LLM的内化先验如何影响零样本标注性能，发现近三分之二的错误抵抗基于提示的修正，并引入了定义特定熟悉度（DSF）作为比记忆化指标更好的预测因子。

0 人收藏 0 人点赞

#annotation

优化基于词的L2韩语语法错误标注

arXiv cs.CL ↗ · 2026-06-01 缓存

本文通过解决现有资源中的问题（包括表面目标实现和单一参考评估），优化了L2韩语的基于词的语法错误标注，并展示了使用基于KoBART的纠错方法所取得的改进。

0 人收藏 0 人点赞

#annotation

注释者立场作为信号：针对反自闭症能力歧视检测的心理测量加权

arXiv cs.CL ↗ · 2026-05-27 缓存

本文介绍了一种基于偏见意识的评估框架，用于检测大语言模型中的反自闭症能力歧视语言，该框架使用基于注释者立场的心理测量加权真实值。研究发现，大语言模型经常将社区重新赋予的语言错误分类为能力歧视，并依赖表面关键词匹配而非上下文。

0 人收藏 0 人点赞

#annotation

AraHopeCorpus：阿拉伯社交媒体危机话语中希望言论的标注指南与数据集

arXiv cs.CL ↗ · 2026-05-25 缓存

本文介绍了AraHopeCorpus，这是首个针对阿拉伯社交媒体中希望言论的标注数据集，数据来自关于加沙战争的YouTube评论。文章提供了详细的标注框架和分析，表明希望性语言在危机话语中占主导地位。

0 人收藏 0 人点赞

#annotation

面向LLM标注的标注指南改进与重用

arXiv cs.CL ↗ · 2026-05-21 缓存

本文提出了一种迭代式调节框架，通过改进和重用标注指南来提升基于LLM的标注性能，并在使用GPT、Gemini和DeepSeek模型的生物医学NER任务上进行了验证。

0 人收藏 0 人点赞

#annotation

使用Emacs和org-remark进行就地批注笔记

Lobsters Hottest ↗ · 2026-05-20 缓存

一篇介绍org-remark的博文，这是一个Emacs包，用于就地批注文件，通过将笔记与源文件保持关联，解决了数字笔记中的解耦问题。

0 人收藏 0 人点赞

#annotation

DiscoExplorer：多语言篇章关系研究的开放接口

arXiv cs.CL ↗ · 2026-05-18 缓存

介绍 DiscoExplorer，一个用于搜索和可视化跨16种语言的篇章关系数据集的开源网络接口，使 DISRPT 共享任务数据可公开访问。

0 人收藏 0 人点赞

#annotation

roboflow/supervision

GitHub Trending (daily) ↗ · 2026-05-14 缓存

roboflow/supervision 是一个用于计算机视觉的开源 Python 工具包，提供可重用的数据加载、注释和实时处理构建块，并支持与模型无关地集成主流库。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈