使用大语言模型的跨语言关系抽取:零样本、少样本和微调在罗马尼亚语上的评估

arXiv cs.CL 论文

摘要

本文通过翻译SemEval-2010 Task 8基准数据集,并在零样本、少样本和QLoRA微调条件下评估Gemma 4,与更小的编码器基线进行比较,研究针对罗马尼亚语的跨语言关系抽取。

arXiv:2606.31718v1 Announce Type: new 摘要:低资源语言的关系抽取通常受限于缺乏标注语料库。我们通过结合自动数据集翻译与大语言模型推理,研究了针对罗马尼亚语的跨语言关系抽取可行性。我们使用基于LLM的翻译流水线将SemEval-2010 Task 8基准从英语翻译成罗马尼亚语,并在零样本、少样本和QLoRA微调配置下评估Gemma 4 31B,与四个参数范围从125M到560M的编码器基线(XLM-RoBERTa base和large、Romanian BERT和RoBERTa-large)进行比较。我们评估了两种任务形式:带标记实体的关系分类和端到端提取。结果表明,在仅提示设置下,罗马尼亚语相对于英语性能下降3到5个百分点;少样本提示相比零样本仅有边际提升;而QLoRA微调在两种语言上将宏F1分数提升了22个百分点以上,同时将跨语言差距从3.3个百分点降至1.4个百分点。尽管编码器基线比QLoRA Gemma小50至250倍,但在罗马尼亚语上的表现与后者相差仅1至4个百分点,其中参数量为125M的单语Romanian BERT与参数量为278M的多语言XLM-R性能相当。因此,在计算资源受限的部署场景中,使用31B模型进行罗马尼亚语单任务关系抽取的理由并不充分。我们发布了翻译后的数据集、评估代码和训练好的模型。
查看原文
查看缓存全文

缓存时间: 2026/07/01 05:35

# 跨语言关系抽取与大型语言模型:罗马尼亚语的零样本、少样本与微调评估  
来源:https://arxiv.org/html/2606.31718  
Dragoș\-Mitruț Vasile¹, Elena\-Simona Apostol¹, Ștefan\-Adrian Toma², Adrian Paschke³⁴, Ciprian\-Octavian Truică¹⁵  

###### 摘要  

针对低资源语言的关系抽取(RE)通常受限于缺乏标注语料库。我们通过结合自动数据集翻译与大型语言模型(LLM)推理,研究罗马尼亚语跨语言关系抽取的可行性。我们使用基于LLM的翻译流水线将SemEval-2010 Task 8基准从英语翻译为罗马尼亚语,并在零样本、少样本和QLoRA微调配置下评估Gemma 4 31B,与四个编码器基线(参数规模从125M到560M:XLM-RoBERTa(base和large)、Romanian BERT和RoBERT-large)进行比较。我们评估两种任务形式:带标记实体的关系分类和端到端抽取。结果表明,在仅使用提示的设置下,罗马尼亚语相比英语性能下降3至5个百分点(pp);少样本提示相比零样本提升微乎其微;而QLoRA微调在两种语言上将宏F1分数提升超过22个百分点,并将跨语言差距从3.3pp缩小至1.4pp。尽管编码器基线在罗马尼亚语上比QLoRA Gemma小50至250倍,但性能仅差1–4pp;其中125M参数的罗马尼亚单语BERT与278M参数的多语言XLM-R表现相当。因此,在计算资源重要的部署场景中,使用31B模型进行罗马尼亚语单任务关系抽取的理由并不充分。我们公开发布翻译后的数据集、评估代码和训练模型。  

## I 引言  

关系抽取(RE)是识别文本中实体间语义关系的任务。虽然英语取得了显著进展,但罗马尼亚语等低资源语言由于缺乏标注数据集而仍处于探索阶段。从头构建此类资源需要训练有素的标注人员和精心的指南设计,这既昂贵又费时。另一种方法是通过自动翻译将现有的英语基准迁移到目标语言。这引出了几个研究问题:  

- Q1:翻译过程中性能损失多少?  
- Q2:基于LLM的零样本和少样本推理能否弥补这一差距?  
- Q3:在翻译数据上进行参数高效微调能在多大程度上提升结果?  

我们使用SemEval-2010 Task 8[9](https://arxiv.org/html/2606.31718#bib.bib1)解决这些问题,该基准包含10种关系类型和方向标签,是成熟的关系抽取基准。我们使用Claude Haiku[1](https://arxiv.org/html/2606.31718#bib.bib2)将整个数据集从英语翻译为罗马尼亚语,并在三种提示配置下评估Gemma 4 31B-it[8](https://arxiv.org/html/2606.31718#bib.bib3)——这是一个最新的开源权重指令微调模型。我们进一步使用QLoRA[4](https://arxiv.org/html/2606.31718#bib.bib4)在翻译后的训练集上微调该模型,以衡量领域自适应的效果,并与在同一数据上训练的四个编码器基线(参数规模从125M到560M)进行比较。我们的贡献如下:  

- C1:我们通过基于LLM的翻译和自动质量检查,构建并验证了罗马尼亚语版本的SemEval-2010 Task 8。  
- C2:我们在原始英语和翻译的罗马尼亚语数据上,系统比较了零样本、少样本(1、3、5个示例)和微调LLM的性能,并提供了四个编码器基线(125M至560M参数)作为背景参考。  
- C3:我们评估了两种任务形式(给定实体的分类和端到端抽取),并分析了每种形式在跨语言迁移中的具体挑战。  

我们已将翻译后的数据集¹¹¹https://huggingface.co/datasets/DS4AI-UPB/romanian-re-semeval、评估代码²²²https://github.com/DS4AI-UPB/crosslingual-romanian-re和训练模型³³³https://huggingface.co/DS4AI-UPB公开提供。  

本文其余部分组织如下:第二节回顾关系抽取、跨语言迁移和基于LLM的信息抽取的相关工作;第三节描述数据集构建过程、两种任务形式和三种推理配置;第四节报告实验结果,并讨论跨语言差距、少样本示例的影响以及端到端抽取的难度;第五节讨论局限性和未来研究方向。  

## II 相关工作  

**关系抽取。**早期关系抽取工作采用手工模式和图核方法。Zelenko等人[15](https://arxiv.org/html/2606.31718#bib.bib6)将核方法应用于新闻文章。Zeng等人[16](https://arxiv.org/html/2606.31718#bib.bib7)引入的带位置嵌入的卷积网络成为SemEval-2010 Task 8上的标准神经基线。随后出现了预训练Transformer编码器,包括基于跨度的分类器[13](https://arxiv.org/html/2606.31718#bib.bib9)和实体标记预训练[2](https://arxiv.org/html/2606.31718#bib.bib8),均在该基准上取得了强表现。关系抽取的序列到序列形式[12](https://arxiv.org/html/2606.31718#bib.bib11)将输出视为增强的自然语言,在概念上与我们端到端抽取的设置相似。  

**跨语言关系抽取。**跨语言关系抽取的方法包括:使用在源语言标签上训练的多语言编码器(如mBERT和XLM-RoBERTa[3](https://arxiv.org/html/2606.31718#bib.bib10))、通过对齐的平行语料库进行标注投影,以及通过机器翻译训练集[7](https://arxiv.org/html/2606.31718#bib.bib12)(即本文采用的方法)。  

**用于信息抽取的LLM。**Wei等人[14](https://arxiv.org/html/2606.31718#bib.bib13)研究了LLM在NER和RE上的零样本提示,报告称仅依赖提示的模型在标准基准上落后于微调基线。参数高效方法缩小了这一差距。LoRA[10](https://arxiv.org/html/2606.31718#bib.bib5)在冻结权重上学习低秩更新,而QLoRA[4](https://arxiv.org/html/2606.31718#bib.bib4)将低秩更新与4-bit量化相结合,使30B规模模型的微调可在单张A100上完成。我们的QLoRA配置遵循原始配方,使用标准目标模块和秩32。  

**罗马尼亚语NLP资源。**罗马尼亚语有两个单语BERT风格模型可用:1) Dumitrescu等人[5](https://arxiv.org/html/2606.31718#bib.bib15)的BERT-base-Romanian,以及2) Masala等人[11](https://arxiv.org/html/2606.31718#bib.bib14)的RoBERT。RoNEC语料库[6](https://arxiv.org/html/2606.31718#bib.bib16)是罗马尼亚语的标准NER基准。目前尚未公开与SemEval-2010 Task 8规模相当的罗马尼亚语RE数据集,本文介绍的翻译数据集旨在填补这一空白。  

## III 方法论  

我们的方法直接对应三个研究问题。数据集构建及其验证回答了Q1,因为翻译步骤是可能导致性能损失的地方。零样本和少样本推理配置回答了Q2。QLoRA微调以及用于对比的编码器基线回答了Q3。  

### III-A 数据集构建  

英语源数据来自SemEval-2010 Task 8[9](https://arxiv.org/html/2606.31718#bib.bib1),包含8,000个训练句子和2,717个测试句子。每个句子包含两个用`<e1>`和`</e1>`、`<e2>`和`</e2>`标记的实体;金标签是九种有方向关系或Other之一,方向编码为如Cause-Effect(e1,e2)。罗马尼亚语版本通过Anthropic API使用Claude Haiku翻译每个句子生成。翻译提示要求模型保留四个实体标签、保持其原始顺序,并写出地道的罗马尼亚语。验证步骤会丢弃缺少标签、标记不平衡或产生空白实体跨度的翻译。验证后,保留7,871个训练示例和2,664个测试示例,保留率分别为98.4%和98.0%。  

为评估超越自动标记检查的翻译质量,一位作者手动检查了100个随机选取的翻译后训练句子。句子级流畅性很高:96/100的翻译语法正确且读起来自然;98/100的情况下原始关系标签仍然有效。实体保真度较低。在74/100的示例中,两个标记实体被正确翻译并对齐到正确的跨度。其余26个示例分为三组:14个示例中,句子翻译了但标记内的实体保留为英语(例如,doll出现在其他罗马尼亚语句子中);9个标记被放在了错误的词上;3个实体被误译,导致关系无法成立(例如,*grenade*被译为地点名*Granada*)。我们将26个中的12个标记为严重,意味着仅凭罗马尼亚语实体跨度很难或无法恢复关系。  

这种模式对两种任务形式的影响不同。关系分类对此具有鲁棒性:标记的标记仍保留在句子中,因此模型仍能看到它们并分配关系,这就是为什么罗马尼亚语分类F1分数接近英语。端到端抽取则受到惩罚,因为金实体取自标记,当金跨度未被翻译或放错位置时,正确的罗马尼亚语预测会被判错。因此,第四节中的罗马尼亚语端到端数字应被视为下界。我们报告的数据集是经过自动后验证的机器翻译结果,而非人工质量资源,并将标记实体错误的清理工作留给未来。  

表I列出了基本统计信息。标签分布存在偏差,Other是多数类。由于翻译均匀应用于所有标签,这种不平衡也传递到了罗马尼亚语。  

**表I:**翻译并验证后的数据集统计信息。  

### III-B 任务形式  

我们评估两种任务形式。在**关系分类**中,实体标签`<e1>`、`</e1>`、`<e2>`、`</e2>`保留在输入中,模型选择十个关系之一及其方向。在**端到端关系抽取**中,实体标签被移除,模型必须在一次生成中同时恢复两个实体及它们之间的关系。  

### III-C 推理配置  

**零样本。**提示枚举十个关系并给出单行描述,要求输出标签和方向。  

**少样本。**我们在提示开头添加k个带标签的示例,k∈{1,3,5},从训练集中随机采样,采样语言与测试句子相同。  

**QLoRA微调。**使用QLoRA[4](https://arxiv.org/html/2606.31718#bib.bib4)在4-bit下对Gemma 4 31B-it在合并的英语和罗马尼亚语训练数据(15,871个示例)上进行微调。LoRA配置使用秩32,α=64,dropout 0.05,应用于所有注意力层和MLP投影。训练进行三个epoch,有效批次大小16,峰值学习率2×10^{-4},余弦衰减,5%预热。  

**编码器基线。**四个编码器模型在同一数据上进行微调。XLM-RoBERTa[3](https://arxiv.org/html/2606.31718#bib.bib10) base(278M)和large(560M)在英语和罗马尼亚语上联合训练,并在两个测试集上评估。BERT-base-Romanian-cased[5](https://arxiv.org/html/2606.31718#bib.bib15)(125M)和RoBERT-large[11](https://arxiv.org/html/2606.31718#bib.bib14)(340M)是单语模型,在罗马尼亚语划分上训练,仅在罗马尼亚语测试集上评估。四个标记`<e1>`、`</e1>`、`<e2>`、`</e2>`被替换为四个添加到词汇表中的特殊标记,[CLS]表示馈送至一个包含19个有方向标签的线性分类器,在评估时合并为10个粗粒度标签。训练使用批次大小16或32(取决于模型大小),学习率2×10^{-5},5个epoch,10%预热,权重衰减0.01。根据保留验证集(训练数据的10%)上的宏F1分数选择最佳检查点,测试集仅用于下面报告的最终评估。  

### III-D 模型与基础设施  

Gemma 4 31B-it[8](https://arxiv.org/html/2606.31718#bib.bib3)通过bitsandbytes以4-bit加载。编码器以bfloat16(BF16)加载,这是一种16位浮点格式,在减少内存使用的同时保留了32位浮点的指数范围。所有实验在单张NVIDIA A100 40GB GPU上运行。模型间的宏F1分数差异通过测试实例上的配对bootstrap检验(10,000次重采样)进行评估。  

## IV 实验结果  

我们围绕三个研究问题组织结果。第三节中的翻译质量评估以及下面报告的跨语言差距回答了Q1。接下来的两个小节中的零样本和少样本结果回答了Q2。结合编码器基线和计算成本的QLoRA结果回答了Q3。  

### IV-A 关系分类  

表II报告了关系分类的宏F1分数和准确率。Gemma 4零样本在英语上达到0.655,在罗马尼亚语上达到0.622。少样本提示在两个方向上移动分数不到1pp:1-shot和3-shot在英语上略低于零样本,5-shot略高;罗马尼亚语情况类似,3-shot达到峰值0.631。  

**表II:**关系分类。SemEval-2010 Task 8测试集上的宏F1分数和准确率。“–”表示未在英语上评估的罗马尼亚语单语模型。最佳结果以粗体显示。  

QLoRA微调将宏F1分数提升至英语0.880和罗马尼亚语0.865,比零样本分别提高22.5pp和24.3pp。跨语言差距从3.3pp缩小至1.4pp。多数关系的每类F1分数超过0.85,除Other外(英语0.71,罗马尼亚语0.67),这符合其“兜底”定义。编码器基线紧随其后。XLM-R-large达到英语0.875和罗马尼亚语0.857,XLM-R-base达到英语0.853和罗马尼亚语0.822,RoBERT-large罗马尼亚语0.844,BERT-base-Romanian罗马尼亚语0.824。四个编码器在罗马尼亚语上跨度3.5pp,从最小编码器到QLoRA Gemma的差距为4.1pp。BERT-ro-base(125M)和XLM-R-base(278M)在罗马尼亚语上分别达到0.824和0.822,因此在使用单目标语言时,较小的单语模型与较大的多语言模型表现相当。  

### IV-B 端到端抽取  

端到端结果报告在表III中,采用三个指标:精确匹配(两个实体和关系都正确)、关系匹配(关系类型正确,不检查实体跨度)和实体匹配(至少识别出一个正确的实体跨度)。绝对数值低于分类,这是更难设置下预期的结果。  

**表III:**端到端抽取。在英语和罗马尼亚语上的精确匹配、关系匹配和实体匹配。

相似文章

GLiNER-Relex:联合命名实体识别与关系提取的统一框架

Hugging Face Daily Papers

GLiNER-Relex 是一个用于联合命名实体识别(NER)与关系提取(RE)的统一框架,利用共享的 Transformer 编码器实现零样本能力。该论文展示了模型在标准基准测试中具有竞争力的性能,并将其作为开源 Python 包发布。

基于大语言模型的零样本目标识别

arXiv cs.AI

本文首次系统性地对前沿大语言模型在经典PDDL规划基准上的零样本目标识别能力进行评估,发现部分模型能随证据积累而扩展性能,而另一些模型则始终依赖世界知识先验,不受观测累积影响。