GlossAssist —— 一款简化语料库创建并研究NLP模型在低资源语言记录环境中效果的工具
摘要
GlossAssist 是一款面向低资源语言记录场景的行间注释文本(IGT)语料库创建工具,以 CWoMP 检索式架构为核心,并结合主动学习反馈机制,使标注者在进行纠错时无需重新训练模型即可持续提升预测质量。
arXiv:2606.04367v1 公告类型:新提交
摘要:行间注释文本(IGT)是语言记录中语言标注的标准格式。然而,人工生成 IGT 往往既耗时又成本高昂。近年来,自动注释系统已取得显著进步,但在田野语言学家中的普及程度仍然有限。现有工具大多以评估为导向而非实际使用,既不提供可解释的纠错路径,也无法将语言学专业知识反馈融入模型行为。我们提出 GlossAssist——一款以 CWoMP(对比词-语素预训练)检索式架构为核心构建的注释工具,该架构将预测结果锚定于一个可动态更新的语素表示词典。结合 CWoMP,我们的系统将标注者的每次纠错视为主动学习流程的一部分,从而扩充词典并改善未来预测,而无需重新训练模型。本文介绍了我们的界面设计,并论证该反馈循环应作为面向语言记录语言学家的 NLP 工具的核心设计要求。
查看缓存全文
缓存时间: 2026/06/05 02:14
# 一种简化语料库创建并研究NLP模型在低资源语言记录场景中效果的工具
来源:https://arxiv.org/html/2606.04367
Matt BuchholzAlexis PalmerUniversity of Colorado Boulder \{bhargav\.shandilya, Matthew\.Buchholz, alexis\.palmer\}@colorado\.edu
###### 摘要
交叉行注释文本(IGT)是语言记录领域的标准语言注释格式。然而,手动生成IGT往往既耗时又费力。近年来,自动化注释系统已取得显著进步,但田野语言学家对其的采纳率仍然较低Rice等人(2025 (https://arxiv.org/html/2606.04367#bib.bib8))。现有工具的设计目标更偏向于评估而非实际使用,既没有提供可解释的纠错路径,也无法将语言学专业知识反馈到模型行为中。我们提出了GlossAssist——一种基于CWoMP(对比词-词素预训练)检索架构Alper等人(2026 (https://arxiv.org/html/2606.04367#bib.bib9))构建的注释工具,其预测结果建立在一个可变的、由已学习词素表征构成的词典之上。结合CWoMP,我们的系统将注释者的每次纠正纳入主动学习框架,从而扩充词典并改善未来的预测,而无需重新训练模型。本文介绍了我们的界面设计,并论证该反馈循环应被视为面向语言记录学家的NLP工具的核心设计要求。
GlossAssist \- 一种简化语料库创建并研究NLP模型在低资源语言记录场景中效果的工具
Bhargav ShandilyaMatt BuchholzAlexis Palmer
University of Colorado Boulder\{bhargav\.shandilya, Matthew\.Buchholz, alexis\.palmer\}@colorado\.edu
参见图注图1:GlossAssist工作流程及CWoMP集成示意图
## 1 引言
当今世界上大多数语言处于濒危状态或濒临消亡,其形态系统、语法结构和口头传统中所蕴含的语言知识一旦消失便无法复原。交叉行注释文本(IGT)是该领域记录这些语言知识的标准方法。以IGT格式对语料库进行注释涉及大量语言分析工作,包括形态切分和词素注释(详见附录A (https://arxiv.org/html/2606.04367#A1))。
计算语言学界已贡献了多个自动化注释系统Girrbach(2023 (https://arxiv.org/html/2606.04367#bib.bib16));Ginn等人(2024b (https://arxiv.org/html/2606.04367#bib.bib11),2026 (https://arxiv.org/html/2606.04367#bib.bib10));Shandilya和Palmer(2025 (https://arxiv.org/html/2606.04367#bib.bib13));Çöltekin(2019 (https://arxiv.org/html/2606.04367#bib.bib24));Wiemerslage等人(2023 (https://arxiv.org/html/2606.04367#bib.bib25))。近期模型在切分、注释和翻译等任务上,针对类型多样的语言已取得了令人瞩目的基准性能。然而,语言记录学家对这些工具的采纳率依然偏低。问题不仅仅在于原始准确率和模型幻觉,更在于现有系统的设计更多服务于评估而非实际使用。这些系统产生的输出难以检查、纠正和信任,将语言学家置于被动接受模型预测的位置,而非视其为专家协作者。此外,除非新工具能提供充分的使用激励,否则语言学家很难迁移到新工具上。尽管语言模型的进展十分显著,但其中许多被锁在难以使用的代码仓库中,对于不熟悉修改和运行代码的研究者而言难以访问。此外,许多仓库也缺乏维护,导致复现结果或利用代码开展进一步研究都十分困难。
我们提出了一种基于不同设计理念的注释工具,将语言学家视为模型优化的重要参与者。该系统基于CWoMPAlper等人(2026 (https://arxiv.org/html/2606.04367#bib.bib9))的检索架构,其预测结果建立在一个可变的、由已学习词素表征构成的词典之上。我们将该反馈循环定位为一种超越基准测试、迈向可在实地切实应用的框架的方式。
## 2 相关工作
### 自动化注释
早期的自动化IGT生成方法采用基于规则和统计的方式Palmer等人(2009 (https://arxiv.org/html/2606.04367#bib.bib14));Moeller和Hulden(2018 (https://arxiv.org/html/2606.04367#bib.bib15)),而SIGMORPHON 2023共享任务Ginn等人(2023 (https://arxiv.org/html/2606.04367#bib.bib12))引入了多种神经网络方法Girrbach(2023 (https://arxiv.org/html/2606.04367#bib.bib16));Cross等人(2023 (https://arxiv.org/html/2606.04367#bib.bib26))。其中大多数将注释视为字符级或字节级的序列到序列任务,而PolyglossGinn等人(2026 (https://arxiv.org/html/2606.04367#bib.bib10))通过在大规模跨语言IGT语料库上进行多语言预训练,代表了当前最先进的水平。近期研究还探索了将大语言模型用于上下文学习Ginn等人(2024a (https://arxiv.org/html/2606.04367#bib.bib17)),发现尽管当前模型在其他方面具有强大的多语言能力,但在濒危语言上仍表现欠佳。Zhao等人(2020 (https://arxiv.org/html/2606.04367#bib.bib23))证明了将翻译作为附加输入信号的价值,这一设计选择被我们的工具从CWoMP系统继承而来。与这些将注释生成为无约束文本的系统不同,CWoMP和我们的工具均将词素视为有据可查、基于可检索词典的形式-意义原子单元,从而在设计上防止幻觉,并支持无需重训练的推理时扩展。
### 语言记录的计算方法
与此平行的一批研究致力于解决将计算工具整合进语言记录工作流程这一更广泛的挑战。Gessler(2022 (https://arxiv.org/html/2606.04367#bib.bib18))直接诊断了基础设施缺口,认为NLP与语言记录学需要共享的软件基础设施,以弥合研究系统与田野实践之间的脱节。Moeller和Arppe(2024 (https://arxiv.org/html/2606.04367#bib.bib19))描述了一套帮助语言记录学家采纳"机器在环"方法的课程,并观察到非计算型语言学家倾向于清理现有数据而非扩充训练集——这一发现直接促使我们在工具设计上选择词典扩充而非重新训练的方式。Rice等人(2025 (https://arxiv.org/html/2606.04367#bib.bib8))对语言记录学家在自动化注释工具方面的实际需求提供了可能是迄今最为详尽的描述,将切分-注释对不对齐以及幻觉词素类型确定为实践中危害最大的失败模式。我们的工具正是围绕这两项发现进行设计的。ComputEL系列研讨会Lachler等人(2025 (https://arxiv.org/html/2606.04367#bib.bib20))从更宏观的层面代表了这一交叉领域的研究社区,为理解田野语言学家所处的实际约束条件提供了重要背景。
参见图注图2:GlossAssist注释界面
### 注释工具与语言基础设施
田野语言学家使用各种工具和工作流程,其中许多依赖ELAN111https://archive.mpi.nl/tla/elan进行时间对齐转写,依赖FLEx222https://software.sil.org/fieldworks/进行形态分析和词典管理,并建立了整合两者的成熟工作流程。ELAN的Lexan333https://pure.mpg.de/view/item_1838141框架对接入计算注释模块提供了一定支持,但如上所述,针对低资源语言的无缝NLP集成至今仍难以实现。我们的工具对这些平台形成补充,专注于IGT注释瓶颈以及模型预测与词典增长之间的反馈循环。
### 人在环路的注释
NLP领域关于人在环路注释的广泛文献与我们以工作流程为中心的评估立场密切相关。Settles(2009 (https://arxiv.org/html/2606.04367#bib.bib21))对相关文献进行了综述,确立了主动学习作为优先分配人工注释精力的框架。后续研究进一步探讨了模型辅助注释如何潜在地改变注释者的行为,有时会产生不良影响。例如,Schroeder等人(2025 (https://arxiv.org/html/2606.04367#bib.bib22))表明,大语言模型生成的建议不一定能提升人工注释的速度或准确性。我们工具的设计通过在词素级别将预测呈现为待评估的假设,将这一风险纳入考量。记录的反馈数据还支持Schroeder等人(2025 (https://arxiv.org/html/2606.04367#bib.bib22))所呼吁的行为分析,即追踪注释者何时以何种方式覆盖模型输出。
## 3 GlossAssist架构
我们的工具444https://github\.com/bhargavns/GlossAssist由两个集成组件构成:\(1\)**注释界面**,用于逐句生成IGT;\(2\)**研究者仪表盘**,用于跨注释会话分析模型性能。两者共同支持三种使用模式——将现有NLP模型整合到活跃的语言记录工作流程中、评估模型在语料库上的效果,以及从零开始构建语料库。如图2 (https://arxiv.org/html/2606.04367#S2.F2)所示,注释界面采用三栏布局。左侧栏显示当前句子的源文本,以及两个自动填充的参考框:与输入中词素匹配的检索词汇条目,以及与句子形态句法相关的检索语法规则。这些内容来自不断增长的词典,并以透明证据的形式呈现给语言学家,而非隐藏在黑箱输出中。中间栏是主要工作区,逐词呈现CWoMP的联合切分和注释预测。每个词旁边显示其预测切分字符串和注释的可编辑字段,并附有逐预测的接受和拒绝控件。关键的是,被接受的切分/注释对将通过可切换的自动添加机制自动加入可变词典。右侧栏处理翻译:显示模型预测的翻译及置信度分数,语言学家可独立于词素级决策对其进行接受、修改或拒绝555CWoMP本身不生成翻译输出。任何合适的翻译模型均可与GlossAssist配合使用。导航控件支持在句子间移动,界面还记录每次接受、拒绝和修改事件的时间戳日志。
该事件日志馈入第二个组件:研究者仪表盘(见图3 (https://arxiv.org/html/2606.04367#A2.F3)),用于跨会话汇总反馈数据。会话级关键绩效指标(如每句平均用时、整体预测准确率和反馈事件总数)可即时提供注释时间和模型可靠性的量化概览。仪表盘由此在注释模式与研究者对模型最需改进之处的理解之间形成第二条反馈回路。
综合来看,这些组件重新定义了注释会话的意义:接受即为已验证的词典条目,拒绝即为模型失败的信号,每次修改即为黄金标准纠正。GlossAssist旨在使这一结构显式化并可付诸行动,无论对于在田野中进行注释的语言学家,还是对于跨语料库评估模型行为的研究者,均是如此。
关于错误传播的说明——错误传播是GlossAssist此类工具需要关注的问题。模型预测有时极具说服力,用户在长时间的注释会话中可能因时间压力而不加仔细审查就接受预测Schroeder等人(2025 (https://arxiv.org/html/2606.04367#bib.bib22))。我们正在努力加入模型置信度的视觉指示器以及可能的未登录词(OOV)候选标注,以应对这一问题。
## 4 立场主张
我们认为,GlossAssist的设计体现了关于语言记录NLP系统应有面貌的三项核心主张:
### 注释工作无需与模型优化相割裂
自动化注释的标准框架将人工注释视为需要最小化的成本:目标是减少语言学家需要做出的决策数量。我们则主张,语言学家做出的每一个决策都是使系统更加强大的投入。在GlossAssist中,被接受的预测被纳入词典,并在处理未来句子时被检索使用。其结果是一条复利效率曲线——早期注释会话自然需要更多纠正,而随着词典不断增长,模型覆盖率提升,需要干预的预测比例随之降低。这与田野语言学家逐步建立语言描述的自然工作流程高度契合,并将模型改进与语言学家的现有实践相对齐,而非要求进行重新训练这样独立的技术干预。Alper等人(2026 (https://arxiv.org/html/2606.04367#bib.bib9))为这一主张提供了直接的实证支持。CWoMP中可变词典的评估结果表明,跨语言来看,用真实词素扩充词典能够持续降低词素错误率(MER),且在复利回报最为重要的最低资源场景中收益最为显著。
### 可解释性是信任模型输出的前提
Rice等人(2025 (https://arxiv.org/html/2606.04367#bib.bib8))的核心发现是,田野语言学家不愿采用自动化注释工具,原因在于这些工具的输出难以检查和纠正。当模型产生幻觉词素类型或切分-注释对不对齐时,从事濒危语言研究的语言学家在模型层面既无安全的应对方式,也没有理解其发生原因的机制。GlossAssist直接针对这一问题。由于CWoMP的预测建立在经过验证的离散词素条目词典之上,每个输出都可追溯至特定的词汇决策。源文本面板中显示的检索词汇条目和语法规则使这种依据对用户可见。未见词素类型的幻觉在设计上得到防止,切分-注释对齐在结构上得到保证。语言学家看到的是证据,被要求对其进行评估,而非面对一个黑箱。
### 评估不应完全以基准测试为中心
当前对自动化注释系统的评估几乎完全依赖语料库级别的准确率指标,如在独立测试集上测量的MER、WER和chRF分数。这些指标对于比较系统很有价值,但与语言记录学家的实际关切——注释速度、模型适应性、易用性和可解释的输出——契合度较低。GlossAssist仪表盘的设计旨在使这些问题得到回答。通过记录每个注释者决策的时间戳和词素索引,可产生以工作流程为中心的评估所需数据。我们认为,这种以注释效率和错误诊断而非仅依赖留出集准确率为核心的评估框架,应当成为标准实践。相似文章
人工智能辅助文化遗产传播:在岩画文档中比较NMT与术语表增强的LLM翻译
比较了DeepL、使用基本提示的Gemini以及使用术语表增强提示的Gemini在岩画西班牙语-英语术语翻译中的表现,发现术语表增强提示达到了最高的术语准确率(81.4%)。
大型语言模型能否模仿人类语音进行临床评估?基于LLM的数据增强方法用于认知评分预测
本文提出了一种基于大型语言模型的数据增强框架,利用GPT-5从书面锚点生成合成口语独白,用于从语音中预测认知评分。一种相似性引导的选择策略持续降低了预测误差,特别是对于少数低分参与者。
实际环境中的多语言多模态大语言模型:面向低资源语言的构建
本教程论文概述了如何为低资源语言构建多语言多模态大语言模型,涵盖数据创建、模型对齐、微调和评估,重点提供实用方案和动手资源。
EmbGen:利用重组语料库进行教学
EmbGen 是一种合成数据生成流水线,它通过嵌入相似度将语料库重组为实体-描述配对,从而生成多样化的问答对,用于在专业领域微调小型语言模型,显著提升了事实准确性。
大型语言模型能否可靠地纠正低资源ASR中的错误?一项关于西弗里斯兰语的污染感知案例研究
本文研究了基于LLM的生成式错误修正(GER)在低资源西弗里斯兰语ASR中的应用,采用污染感知评估方法,使用私有数据集表明GPT-5.1将错误降低至低于oracle水平。