使用大语言模型的跨语言关系抽取：零样本、少样本和微调在罗马尼亚语上的评估

arXiv cs.CL 2026/07/01 04:00 论文

relation-extraction cross-lingual low-resource romanian llm zero-shot fine-tuning

摘要

本文通过翻译SemEval-2010 Task 8基准数据集，并在零样本、少样本和QLoRA微调条件下评估Gemma 4，与更小的编码器基线进行比较，研究针对罗马尼亚语的跨语言关系抽取。

arXiv:2606.31718v1 Announce Type: new 摘要：低资源语言的关系抽取通常受限于缺乏标注语料库。我们通过结合自动数据集翻译与大语言模型推理，研究了针对罗马尼亚语的跨语言关系抽取可行性。我们使用基于LLM的翻译流水线将SemEval-2010 Task 8基准从英语翻译成罗马尼亚语，并在零样本、少样本和QLoRA微调配置下评估Gemma 4 31B，与四个参数范围从125M到560M的编码器基线（XLM-RoBERTa base和large、Romanian BERT和RoBERTa-large）进行比较。我们评估了两种任务形式：带标记实体的关系分类和端到端提取。结果表明，在仅提示设置下，罗马尼亚语相对于英语性能下降3到5个百分点；少样本提示相比零样本仅有边际提升；而QLoRA微调在两种语言上将宏F1分数提升了22个百分点以上，同时将跨语言差距从3.3个百分点降至1.4个百分点。尽管编码器基线比QLoRA Gemma小50至250倍，但在罗马尼亚语上的表现与后者相差仅1至4个百分点，其中参数量为125M的单语Romanian BERT与参数量为278M的多语言XLM-R性能相当。因此，在计算资源受限的部署场景中，使用31B模型进行罗马尼亚语单任务关系抽取的理由并不充分。我们发布了翻译后的数据集、评估代码和训练好的模型。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:35

# 跨语言关系抽取与大型语言模型：罗马尼亚语的零样本、少样本与微调评估  
来源：https://arxiv.org/html/2606.31718  
Dragoș\-Mitruț Vasile¹， Elena\-Simona Apostol¹， Ștefan\-Adrian Toma²， Adrian Paschke³⁴， Ciprian\-Octavian Truică¹⁵  

###### 摘要  

针对低资源语言的关系抽取（RE）通常受限于缺乏标注语料库。我们通过结合自动数据集翻译与大型语言模型（LLM）推理，研究罗马尼亚语跨语言关系抽取的可行性。我们使用基于LLM的翻译流水线将SemEval-2010 Task 8基准从英语翻译为罗马尼亚语，并在零样本、少样本和QLoRA微调配置下评估Gemma 4 31B，与四个编码器基线（参数规模从125M到560M：XLM-RoBERTa（base和large）、Romanian BERT和RoBERT-large）进行比较。我们评估两种任务形式：带标记实体的关系分类和端到端抽取。结果表明，在仅使用提示的设置下，罗马尼亚语相比英语性能下降3至5个百分点（pp）；少样本提示相比零样本提升微乎其微；而QLoRA微调在两种语言上将宏F1分数提升超过22个百分点，并将跨语言差距从3.3pp缩小至1.4pp。尽管编码器基线在罗马尼亚语上比QLoRA Gemma小50至250倍，但性能仅差1–4pp；其中125M参数的罗马尼亚单语BERT与278M参数的多语言XLM-R表现相当。因此，在计算资源重要的部署场景中，使用31B模型进行罗马尼亚语单任务关系抽取的理由并不充分。我们公开发布翻译后的数据集、评估代码和训练模型。  

## I 引言  

关系抽取（RE）是识别文本中实体间语义关系的任务。虽然英语取得了显著进展，但罗马尼亚语等低资源语言由于缺乏标注数据集而仍处于探索阶段。从头构建此类资源需要训练有素的标注人员和精心的指南设计，这既昂贵又费时。另一种方法是通过自动翻译将现有的英语基准迁移到目标语言。这引出了几个研究问题：  

- Q1：翻译过程中性能损失多少？  
- Q2：基于LLM的零样本和少样本推理能否弥补这一差距？  
- Q3：在翻译数据上进行参数高效微调能在多大程度上提升结果？  

我们使用SemEval-2010 Task 8[9](https://arxiv.org/html/2606.31718#bib.bib1)解决这些问题，该基准包含10种关系类型和方向标签，是成熟的关系抽取基准。我们使用Claude Haiku[1](https://arxiv.org/html/2606.31718#bib.bib2)将整个数据集从英语翻译为罗马尼亚语，并在三种提示配置下评估Gemma 4 31B-it[8](https://arxiv.org/html/2606.31718#bib.bib3)——这是一个最新的开源权重指令微调模型。我们进一步使用QLoRA[4](https://arxiv.org/html/2606.31718#bib.bib4)在翻译后的训练集上微调该模型，以衡量领域自适应的效果，并与在同一数据上训练的四个编码器基线（参数规模从125M到560M）进行比较。我们的贡献如下：  

- C1：我们通过基于LLM的翻译和自动质量检查，构建并验证了罗马尼亚语版本的SemEval-2010 Task 8。  
- C2：我们在原始英语和翻译的罗马尼亚语数据上，系统比较了零样本、少样本（1、3、5个示例）和微调LLM的性能，并提供了四个编码器基线（125M至560M参数）作为背景参考。  
- C3：我们评估了两种任务形式（给定实体的分类和端到端抽取），并分析了每种形式在跨语言迁移中的具体挑战。  

我们已将翻译后的数据集¹¹¹https://huggingface.co/datasets/DS4AI-UPB/romanian-re-semeval、评估代码²²²https://github.com/DS4AI-UPB/crosslingual-romanian-re和训练模型³³³https://huggingface.co/DS4AI-UPB公开提供。  

本文其余部分组织如下：第二节回顾关系抽取、跨语言迁移和基于LLM的信息抽取的相关工作；第三节描述数据集构建过程、两种任务形式和三种推理配置；第四节报告实验结果，并讨论跨语言差距、少样本示例的影响以及端到端抽取的难度；第五节讨论局限性和未来研究方向。  

## II 相关工作  

**关系抽取。**早期关系抽取工作采用手工模式和图核方法。Zelenko等人[15](https://arxiv.org/html/2606.31718#bib.bib6)将核方法应用于新闻文章。Zeng等人[16](https://arxiv.org/html/2606.31718#bib.bib7)引入的带位置嵌入的卷积网络成为SemEval-2010 Task 8上的标准神经基线。随后出现了预训练Transformer编码器，包括基于跨度的分类器[13](https://arxiv.org/html/2606.31718#bib.bib9)和实体标记预训练[2](https://arxiv.org/html/2606.31718#bib.bib8)，均在该基准上取得了强表现。关系抽取的序列到序列形式[12](https://arxiv.org/html/2606.31718#bib.bib11)将输出视为增强的自然语言，在概念上与我们端到端抽取的设置相似。  

**跨语言关系抽取。**跨语言关系抽取的方法包括：使用在源语言标签上训练的多语言编码器（如mBERT和XLM-RoBERTa[3](https://arxiv.org/html/2606.31718#bib.bib10)）、通过对齐的平行语料库进行标注投影，以及通过机器翻译训练集[7](https://arxiv.org/html/2606.31718#bib.bib12)（即本文采用的方法）。  

**用于信息抽取的LLM。**Wei等人[14](https://arxiv.org/html/2606.31718#bib.bib13)研究了LLM在NER和RE上的零样本提示，报告称仅依赖提示的模型在标准基准上落后于微调基线。参数高效方法缩小了这一差距。LoRA[10](https://arxiv.org/html/2606.31718#bib.bib5)在冻结权重上学习低秩更新，而QLoRA[4](https://arxiv.org/html/2606.31718#bib.bib4)将低秩更新与4-bit量化相结合，使30B规模模型的微调可在单张A100上完成。我们的QLoRA配置遵循原始配方，使用标准目标模块和秩32。  

**罗马尼亚语NLP资源。**罗马尼亚语有两个单语BERT风格模型可用：1) Dumitrescu等人[5](https://arxiv.org/html/2606.31718#bib.bib15)的BERT-base-Romanian，以及2) Masala等人[11](https://arxiv.org/html/2606.31718#bib.bib14)的RoBERT。RoNEC语料库[6](https://arxiv.org/html/2606.31718#bib.bib16)是罗马尼亚语的标准NER基准。目前尚未公开与SemEval-2010 Task 8规模相当的罗马尼亚语RE数据集，本文介绍的翻译数据集旨在填补这一空白。  

## III 方法论  

我们的方法直接对应三个研究问题。数据集构建及其验证回答了Q1，因为翻译步骤是可能导致性能损失的地方。零样本和少样本推理配置回答了Q2。QLoRA微调以及用于对比的编码器基线回答了Q3。  

### III-A 数据集构建  

英语源数据来自SemEval-2010 Task 8[9](https://arxiv.org/html/2606.31718#bib.bib1)，包含8,000个训练句子和2,717个测试句子。每个句子包含两个用`<e1>`和`</e1>`、`<e2>`和`</e2>`标记的实体；金标签是九种有方向关系或Other之一，方向编码为如Cause-Effect(e1,e2)。罗马尼亚语版本通过Anthropic API使用Claude Haiku翻译每个句子生成。翻译提示要求模型保留四个实体标签、保持其原始顺序，并写出地道的罗马尼亚语。验证步骤会丢弃缺少标签、标记不平衡或产生空白实体跨度的翻译。验证后，保留7,871个训练示例和2,664个测试示例，保留率分别为98.4%和98.0%。  

为评估超越自动标记检查的翻译质量，一位作者手动检查了100个随机选取的翻译后训练句子。句子级流畅性很高：96/100的翻译语法正确且读起来自然；98/100的情况下原始关系标签仍然有效。实体保真度较低。在74/100的示例中，两个标记实体被正确翻译并对齐到正确的跨度。其余26个示例分为三组：14个示例中，句子翻译了但标记内的实体保留为英语（例如，doll出现在其他罗马尼亚语句子中）；9个标记被放在了错误的词上；3个实体被误译，导致关系无法成立（例如，*grenade*被译为地点名*Granada*）。我们将26个中的12个标记为严重，意味着仅凭罗马尼亚语实体跨度很难或无法恢复关系。  

这种模式对两种任务形式的影响不同。关系分类对此具有鲁棒性：标记的标记仍保留在句子中，因此模型仍能看到它们并分配关系，这就是为什么罗马尼亚语分类F1分数接近英语。端到端抽取则受到惩罚，因为金实体取自标记，当金跨度未被翻译或放错位置时，正确的罗马尼亚语预测会被判错。因此，第四节中的罗马尼亚语端到端数字应被视为下界。我们报告的数据集是经过自动后验证的机器翻译结果，而非人工质量资源，并将标记实体错误的清理工作留给未来。  

表I列出了基本统计信息。标签分布存在偏差，Other是多数类。由于翻译均匀应用于所有标签，这种不平衡也传递到了罗马尼亚语。  

**表I：**翻译并验证后的数据集统计信息。  

### III-B 任务形式  

我们评估两种任务形式。在**关系分类**中，实体标签`<e1>`、`</e1>`、`<e2>`、`</e2>`保留在输入中，模型选择十个关系之一及其方向。在**端到端关系抽取**中，实体标签被移除，模型必须在一次生成中同时恢复两个实体及它们之间的关系。  

### III-C 推理配置  

**零样本。**提示枚举十个关系并给出单行描述，要求输出标签和方向。  

**少样本。**我们在提示开头添加k个带标签的示例，k∈{1,3,5}，从训练集中随机采样，采样语言与测试句子相同。  

**QLoRA微调。**使用QLoRA[4](https://arxiv.org/html/2606.31718#bib.bib4)在4-bit下对Gemma 4 31B-it在合并的英语和罗马尼亚语训练数据（15,871个示例）上进行微调。LoRA配置使用秩32，α=64，dropout 0.05，应用于所有注意力层和MLP投影。训练进行三个epoch，有效批次大小16，峰值学习率2×10^{-4}，余弦衰减，5%预热。  

**编码器基线。**四个编码器模型在同一数据上进行微调。XLM-RoBERTa[3](https://arxiv.org/html/2606.31718#bib.bib10) base（278M）和large（560M）在英语和罗马尼亚语上联合训练，并在两个测试集上评估。BERT-base-Romanian-cased[5](https://arxiv.org/html/2606.31718#bib.bib15)（125M）和RoBERT-large[11](https://arxiv.org/html/2606.31718#bib.bib14)（340M）是单语模型，在罗马尼亚语划分上训练，仅在罗马尼亚语测试集上评估。四个标记`<e1>`、`</e1>`、`<e2>`、`</e2>`被替换为四个添加到词汇表中的特殊标记，[CLS]表示馈送至一个包含19个有方向标签的线性分类器，在评估时合并为10个粗粒度标签。训练使用批次大小16或32（取决于模型大小），学习率2×10^{-5}，5个epoch，10%预热，权重衰减0.01。根据保留验证集（训练数据的10%）上的宏F1分数选择最佳检查点，测试集仅用于下面报告的最终评估。  

### III-D 模型与基础设施  

Gemma 4 31B-it[8](https://arxiv.org/html/2606.31718#bib.bib3)通过bitsandbytes以4-bit加载。编码器以bfloat16（BF16）加载，这是一种16位浮点格式，在减少内存使用的同时保留了32位浮点的指数范围。所有实验在单张NVIDIA A100 40GB GPU上运行。模型间的宏F1分数差异通过测试实例上的配对bootstrap检验（10,000次重采样）进行评估。  

## IV 实验结果  

我们围绕三个研究问题组织结果。第三节中的翻译质量评估以及下面报告的跨语言差距回答了Q1。接下来的两个小节中的零样本和少样本结果回答了Q2。结合编码器基线和计算成本的QLoRA结果回答了Q3。  

### IV-A 关系分类  

表II报告了关系分类的宏F1分数和准确率。Gemma 4零样本在英语上达到0.655，在罗马尼亚语上达到0.622。少样本提示在两个方向上移动分数不到1pp：1-shot和3-shot在英语上略低于零样本，5-shot略高；罗马尼亚语情况类似，3-shot达到峰值0.631。  

**表II：**关系分类。SemEval-2010 Task 8测试集上的宏F1分数和准确率。“–”表示未在英语上评估的罗马尼亚语单语模型。最佳结果以粗体显示。  

QLoRA微调将宏F1分数提升至英语0.880和罗马尼亚语0.865，比零样本分别提高22.5pp和24.3pp。跨语言差距从3.3pp缩小至1.4pp。多数关系的每类F1分数超过0.85，除Other外（英语0.71，罗马尼亚语0.67），这符合其“兜底”定义。编码器基线紧随其后。XLM-R-large达到英语0.875和罗马尼亚语0.857，XLM-R-base达到英语0.853和罗马尼亚语0.822，RoBERT-large罗马尼亚语0.844，BERT-base-Romanian罗马尼亚语0.824。四个编码器在罗马尼亚语上跨度3.5pp，从最小编码器到QLoRA Gemma的差距为4.1pp。BERT-ro-base（125M）和XLM-R-base（278M）在罗马尼亚语上分别达到0.824和0.822，因此在使用单目标语言时，较小的单语模型与较大的多语言模型表现相当。  

### IV-B 端到端抽取  

端到端结果报告在表III中，采用三个指标：精确匹配（两个实体和关系都正确）、关系匹配（关系类型正确，不检查实体跨度）和实体匹配（至少识别出一个正确的实体跨度）。绝对数值低于分类，这是更难设置下预期的结果。  

**表III：**端到端抽取。在英语和罗马尼亚语上的精确匹配、关系匹配和实体匹配。

使用大语言模型的跨语言关系抽取：零样本、少样本和微调在罗马尼亚语上的评估

相似文章

基于大语言模型的少样本生物医学关系抽取：监督学习的可行替代方案？

GLiNER-Relex：联合命名实体识别与关系提取的统一框架

基于大语言模型的零样本目标识别

UA-Legal-Bench：评估大语言模型在乌克兰法律推理能力的基准

从基准测试到推理能力：大语言模型在越南法律文本上的双维度大规模评估

提交意见反馈