NLP的未来可能不在NLP会议上:自然语言处理中的学术迁移模式

arXiv cs.CL 论文

摘要

一项分析2010年至2026年间14.2万篇NLP论文的研究发现,资深和新兴的NLP作者越来越多地将论文发表在NeurIPS和ICLR等通用机器学习会议上,而非ACL等核心NLP会议,且ML会议具有显著的引用优势。

arXiv:2607.02416v1 Announce Type: new 摘要:自然语言处理(NLP)传统上发布在其核心学科会议如ACL上。然而,大语言模型(LLMs)的进步导致NLP与通用机器学习(ML)之间的学科界限变得模糊,作者经常在两个领域的会议上发表论文。本文探讨了这一学科的重心是否正在转移。通过分析2010年至2026年间发表的NLP研究,并对资深和新兴作者进行研究,我们发现迁移正在发生。首先,与LLM时代前后对比,资深作者在旗舰*ACL主会议上的份额下降了19.2个百分点,而在较新的Findings子刊上增加了14.8个百分点,通用ML会议上升了8.6个百分点,即使考虑了领域的并行增长。其次,在首次发表至少三篇第一作者NLP主题论文的新作者中,其工作主要发表在*ACL会议上的比例从2019年的84%下降到2024年的74%,而主要发表在通用ML会议上的比例从5%上升到21%。通过因果推断技术,我们估计这些通用ML会议提供了显著的引用优势,这影响了作者对会议的选择。综合来看,这些结果指出了NLP研究发表地点的重大转变。
查看原文
查看缓存全文

缓存时间: 2026/07/03 05:43

# NLP的未来可能不在NLP会议上:自然语言处理领域的学术迁移模式

来源:https://arxiv.org/html/2607.02416

###### 摘要

自然语言处理(NLP)传统上在其核心学科会议(如ACL)上发表。然而,大型语言模型(LLMs)的进步导致NLP与通用机器学习(ML)之间的学科界限日益模糊,作者们经常在两个领域的会议中发表论文。本文探讨学科中心是否正在发生转移。通过分析2010年至2026年间发表的NLP研究,以及对资深和新兴作者的研究,我们发现迁移确实在发生。首先,比较LLM前后时期,资深作者在旗舰*ACL主会议轨道的发表份额下降了19.2个百分点,而在较新的Findings子刊中却增加了14.8个百分点;同时,通用ML会议的份额上升了8.6个百分点,即使在调整了这两个领域的并行增长之后也是如此。其次,在那些首次以至少三篇NLP主题第一作者论文出道的作者中,其作品主要发表在*ACL会议的比例从2019年的84%下降到2024年的74%,而主要发表在通用ML会议的比例则从5%上升到21%。利用因果推断技术,我们估计这些通用ML会议带来显著的引用优势,这影响了作者对会议的选择。综合来看,这些结果指出了NLP研究成果发表地点的重大转变。

编者按:本文是《NLP的未来可能不在NLP会议上:自然语言处理领域的学术迁移模式》的HTML版本。

David Jurgens
密歇根大学信息学院
[email protected]

## 1 引言

过去十年,由于大型语言模型(LLMs)的出现,自然语言处理(NLP)领域经历了显著转变。这些新模型在许多构建应用的上下文中提供了强大的语言理解能力,同时也加深了我们对语言处理过程的理解。这些新能力导致该领域主要会议(ACL、NAACL、EMNLP¹¹¹我们将这一系列会议统称为*ACL)的产出急剧增长:过去十年间,*ACL的年均产出增长了大约九倍,从2015年的约975篇论文增加到2025年的超过8700篇。然而,许多介绍基础模型和技术的论文并未发表在NLP会议上,而是出现在通用机器学习(ML)会议上;例如GPT3(Brown et al., 2020)、InstructGPT(Ouyang et al., 2022)、思维链提示(Wei et al., 2022b)和Chinchilla缩放定律(Hoffmann et al., 2022)发表在NeurIPS,而LoRA(Hu et al., 2022)、FLAN(Wei et al., 2022a)和ReAct智能体模式(Yao et al., 2023)发表在ICLR。此外,在NLP增长的同时,这些通用ML会议增长得更快——在同一十年间,它们与NLP相关的产出增长了大约二十倍。伴随这种增长而来的是大量关于NLP主题的论文。因此,据传闻,NLP研究人员正在向ICLR、NeurIPS和ICML投稿,而不是*ACL系列会议,这导致一些人怀疑*ACL是否被“抛在了后面”。在本文中,我们对这一传闻进行定量检验,以衡量学者是否正在迁移。

为了检验NLP研究人员是否正在迁移,本文做出了以下四项贡献。首先,通过对2010-2026年间来自23个NLP、ML和AI会议的142K篇NLP主题论文进行大规模分析,我们证明了这种迁移是真实存在的。对于资深NLP作者而言,在LLM兴起之后,他们在通用ML会议上的发表份额上升了8.6个百分点,而在*ACL会议上的份额则下降了类似的幅度,即使在调整了两个领域的快速并行增长之后也是如此。其次,通过使用Oaxaca-Blinder分解,我们表明这种移动更多地是由于会议惯例的变化,而不是研究人员改变研究主题。第三,我们证明NLP研究的新进入者(例如博士生)越来越倾向于在通用ML会议上发表,即使控制了其导师的会议偏好也是如此。第四,我们表明这种行为的一个动机可能是引用优势;通过使用论文匹配来生成反事实的投稿情况,我们表明,一篇论文如果出现在通用ML会议而非*ACL会议上,其获得的引用数量可能超过后者的两倍。综合来看,这些结果指出了NLP核心所在以及重大进展可能出现的未来重大变化。

## 2 相关工作

科学是一个不断演变的过程,新技术的发展导致了新领域的诞生或领域的合并。虽然本文的案例研究主要集中于一个学科——NLP,但学术迁移的问题与多项研究相关。

**学术激励** 科学界的荣誉是累积性的——这也被称为马太效应,即认可会不成比例地流向已经突出的工作和作者(Merton, 1968; de Solla Price, 1965; Azoulay et al., 2014)——因此,一个能够带来引用优势的会议可以自我强化。与我们最相关的是,科学学的研究将研究人员的领域视为一种动态变化:科学家在其职业生涯中越来越多地切换研究主题(Zeng et al., 2019),兴趣以可测量的重尾模式演变(Jia et al., 2017)。我们将NLP向ML会议的迁移解读为这种流动性的一个重要维度。这些研究确立了会议模式和影响力高度依赖于作者个人,并受到激励因素塑造,这促使我们将会议迁移解读为对领域回报所在位置变化的潜在回应。

不同会议之间的引用率差异已有充分记录,但其解释存在争议。对引用行为和引用指标的综述列举了诸多非学术因素影响谁的工作得到认可(Bornmann and Daniel, 2008; Tahamtan et al., 2016; Waltman, 2016)。这些因素导致了长期存在的批评,警告不要将会议层面的平均值解读为论文层面的质量,例如影响因子作为单篇论文引用次数的代理指标效果不佳(Seglen, 1997; Garfield, 2006),以及预印本发布改变了引用积累的时间和方式(Ginsparg, 2011; Larivière et al., 2014)。

**NLP和ML的文献计量学** 一系列长期的研究利用ACL文集(ACL Anthology)来研究NLP社区的结构和演变。多项研究引入了研究行为的新资源,例如文集参考语料库(Anthology Reference Corpus)和ACL文集网络(ACL Anthology Network),它们将论文集转化为引用图和合作图资源(Bird et al., 2008; Radev et al., 2013),以及更侧重于学者的NLP Scholar数据集和浏览器(Mohammad, 2020b,c)。这些资源已被用于描绘该领域在不同研究时期的主题构成变化(Anderson et al., 2012),尽管是在LLM之前的时代。在这些资源的基础上,历时研究描绘了NLP内部的生产率和影响力动态,例如师徒网络中的结构性玻璃天花板(Schluter, 2018)、地理引用差距(Rungta et al., 2022)、工业实验室在该领域的集中度(Abdalla et al., 2023),以及NLP如何引用和被相邻学科引用(Wahle et al., 2023; Mohammad, 2020a)。其他人则直接追踪该领域的范式转变和自我形象(Jurgens et al., 2018; Pramanick et al., 2023; Michael et al., 2023; Bollmann and Elliott, 2020)。这些研究向内审视ACL文集,关注NLP作者在*ACL会议内部的行为;而我们则追踪ACL文集的作者在*ACL之外发表作品的情况,并识别出一个博士起始队列,用来区分这种转变中有多少反映了“谁”在发表,多少反映了他们“研究什么”。

**NLP和ML的研究实践** 一并行文献审视NLP和ML如何进行和报告研究,常常担忧速度超过严谨性(Sculley et al., 2018; Lipton and Steinhardt, 2019)。这些文献记录了统计功效不足的比较(Card et al., 2020)、不完整的实验结果报告(Dodge et al., 2019; Hou et al., 2019)、可重复性方面的差距(Gundersen and Kjensmo, 2018),以及该领域选择研究什么所蕴含的价值承诺(Birhane et al., 2022; Blodgett et al., 2020; Rogers et al., 2021)。虽然并非所有NLP和ML论文都存在这些缺陷,但这些问题加剧了该领域审稿人认为什么重要、什么研究被视为可发表的认识。

**LLM时代的NLP-ML融合** 预训练语言模型(PLMs;如BERT)、LLM和其他基础模型的兴起既加速了该领域的增长,也模糊了NLP/ML的边界(Bommasani et al., 2021),背景是人工智能文献的指数级扩张(Frank et al., 2019; Krenn et al., 2023)。自2020年以来,NLP和通用ML明显围绕大型预训练模型和语言模型融合,评论家们从方法论和批判性角度都对此转变进行了阐述(Bender and Koller, 2020; Bender et al., 2021)。制度层面的回应同样显而易见,出现了跨越边界的新会议,包括《机器学习研究汇刊》(Transactions on Machine Learning Research, 2022)和《语言建模会议》(Conference on Language Modeling, 2024)的创办。这种融合促使我们选择2010-2026年的时间窗口,它跨越了前PLM/LLM时代直至现在;我们的分析建立在由开放学术基础设施构建的统一、交叉链接语料库之上(Lo et al., 2020; Kinney et al., 2023; Priem et al., 2022)。

## 3 数据

为了模拟潜在的学者迁移,我们首先创建了一个跨相关会议的NLP主题论文的纵向语料库,并带有规范的交叉链接作者标识符,如下所述。

### 3.1 会议分类法和论文覆盖范围

我们从三个类别的发表会议中收集数据,这些会议与NLP→ML问题密切相关:*ACL(例如ACL、EMNLP、TACL)、通用ML(例如NeurIPS、ICLR、ICML)和 AI 广泛(AAAI、IJCAI)。*ACL本身拥有多样化的生态系统,自2020年开始增加Findings子刊也可能影响学者迁移。因此,我们考虑四个层级:NLP主会(所有会议的主论文集)、NLP Findings、NLP研讨会/资源(包括WMT和LREC²²²我们注意到WMT现在本身就是一个会议,而LREC一直是一个会议。然而,这两个会议的规范与NLP主会不同,WMT有共享任务,LREC接受率更高,两者都更接近研讨会的规范。)以及NLP期刊(TACL和《计算语言学》)。论文元数据来自六个来源的联合:(i) ACL文集转储,(ii) Semantic Scholar会议查询,(iii) OpenAlex的 primary_location,(iv) 公开的OpenReview投稿,(v) PMLR论文集,以及(vi) DBLP批量导出。我们通过按(会议、年份)内标准化标题,并使用每篇论文的所有相关标识符(例如其DOI)来对这些来源进行去重。我们还从Semantic Scholar和OpenAlex检索每篇论文的引用、标题和摘要元数据。总体而言,我们最初获得了141,710篇来自三个会议家族的独特论文,随后这些论文被分类是否为NLP主题;表2报告了这些家族内部的NLP主题覆盖率。附录A.1包含有关数据组成的更多细节。

### 3.2 作者标识符解析

根据其来源,每篇论文在其可用元数据中包含Semantic Scholar、OpenAlex、ACL文集、DBLP键和OpenReview-id。我们通过以下方式将作者身份交叉链接为单个author_uid:联合查找 (a) 精确匹配的共享ID,(b) OpenReview个人资料中声明的DBLP/ORCID/Google Scholar句柄,以及 (c) 当两条记录共享明确的规范名称时,基于名称+合著者块的唯一性。这产生了320,775位不同的作者。附录表6报告了具有每种外部标识符的作者百分比。

### 3.3 识别NLP主题论文

并非所有发表在通用ML或AI广泛会议上的论文都是NLP主题,因此我们开发了一个管道来标记论文。使用Gemma-4-26B-A4B-it判断模型,输入论文的标题和摘要,并提供一份基于ACL会议多年征稿启事整理的NLP论文描述(详见§A.4)。该提示经过多次迭代和人工评估优化;最终版本包含2.3K个token,包括每个NLP子领域/主题的描述、范围外主题的描述、决策规则以及16个示例。模型被要求生成简明的理由(最多12个词),然后给论文是否属于NLP主题分配YES/NO标签。我们注意到在推理时会议身份被屏蔽,因此标签不能简化为“出现在*ACL”,以防止在后续实验中将NLP主题标签与会议混淆。为了评估,我们抽样并标注了402个标题和摘要,这些样本均匀分布在*ACL、通用ML和AI广泛三个类别中,并按Gemma 4模型的YES/NO预测进行分层。表1显示了池重加权后的结果。性能最高(0.

相似文章

ACL 现在无关紧要了吗?[D]

Reddit r/MachineLearning

讨论 ACL 会议在 NLP 社区中是否正在失去其相关性,相比于 NeurIPS 和 ICML 等更大的人工智能会议,质疑 ACL 第一作者论文是否仍对博士申请有帮助。

人工智能研究中的主题相变:大规模证据与新兴主题的早期预警信号

arXiv cs.AI

本文分析了2017至2025年间五场顶级AI会议(ACL、CVPR、ICLR、ICML、NeurIPS)的80,814篇论文,表明主要AI主题并非逐步增长,而是通过突然的“主题相变”推进。文章提出了一种用于检测此类相变的早期预警信号,并指出推理、智能体AI和多模态大语言模型是2028年前值得关注的主题。

顶级AI会议使用AI检测器拒绝涉嫌由AI撰写的论文

Reddit r/ArtificialInteligence

NeurIPS 2026使用了专有AI文本检测器,以涉嫌违反AI政策为由直接拒绝论文,但未在目标分布上验证该检测器;随后同一检测器又将会议主席自己的论文标记为可能由AI撰写。