MORPHOGEN:评估性别感知形态生成的多语言基准

arXiv cs.CL 论文

摘要

研究者发布 MORPHOGEN,一个多语言基准,用于测试大模型能否在法语、阿拉伯语和印地语中将第一人称句子改写为相反性别,同时保留原意。

arXiv:2604.18914v1 公告类型:新增 摘要:尽管多语言大语言模型(LLM)在翻译、问答等高阶任务上表现良好,它们对语法性别和形态一致性的处理能力仍未被充分研究。在形态丰富的语言中,性别会影响动词变位、代词,甚至影响显性与隐性提及性别的第一人称结构。我们推出 MORPHOGEN,一个基于形态的大规模基准数据集,用于评估三种类型迥异的带语法性别语言(法语、阿拉伯语、印地语)中的性别感知生成。核心任务 GENFORM 要求模型将第一人称句子改写为相反性别,同时保留含义与结构。我们构建了覆盖这三种语言的高质量合成数据集,并对 15 个主流多语言 LLM(2B–70B)在此任务上的表现进行基准测试。结果显示,当前模型在形态性别处理上存在显著差距,并揭示出有趣的现象。MORPHOGEN 为性别感知语言建模提供了聚焦的诊断视角,并为未来包容性、形态敏感的 NLP 研究奠定基础。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:29

# MORPHOGEN:评估性别感知形态生成的多语言基准  
来源:https://arxiv.org/html/2604.18914  
Mehul Aggarwal♡ Aditya Agarwal♡¹ Arnav Goel♡¹ Medha Hira♡¹ Anubha Gupta♡  
♡SBILab,德里印度信息技术学院 [email protected]  
![无题图像](https://arxiv.org/html/2604.18914v1/images/github-logo.png)[代码](https://github.com/arnav10goel/Morphogen)  
![无题图像](https://arxiv.org/html/2604.18914v1/images/huggingface_logo.png)[数据集](https://huggingface.co/datasets/ag2003/morphogen)  

###### 摘要  
尽管多语言大语言模型(LLM)在翻译、问答等高层任务上表现优异,其处理语法性别与形态一致性的能力仍鲜少被探究。在形态丰富的语言中,性别会影响动词变位、代词乃至第一人称结构中的显性与隐性性别指代。为此,我们推出**MORPHOGEN**——一个面向性别感知形态生成的大规模基准,涵盖三种类型迥异的语法性别语言:法语、阿拉伯语与印地语。核心任务**GENFORM**要求模型将第一人称句子改写为相反性别,同时保持句意与结构不变。我们构建了覆盖三语的高质量合成数据集,并在15款主流多语言LLM(2B–70B)上评测其转换能力。结果揭示了当前模型在形态性别处理上的差距与新见解。MORPHOGEN为性别感知语言建模提供了聚焦的诊断视角,并为包容性、形态敏感的NLP研究奠定基础。

---

## 1 引言  
![图1:三语性别形态差异示例](https://arxiv.org/html/2604.18914#S1.F1)

多语言大语言模型在摘要、翻译、问答等任务上表现强劲,但主流评测基准(XTREME、Global-MMLU、MM-Eval、BenchMAX、IndicGenBench等)因翻译质量差、数据污染、偏重高层语义任务,难以细分模型在形态丰富或跨文化场景下的细粒度缺陷。随着LLM在多语环境部署,检验其能否正确应用形态规则变得至关重要,尤其在法语、阿拉伯语、印地语等语法性别丰富的语言中:性别影响动词、代词、形容词乃至词序,第一人称句子常隐含性别标记(图1)。精准建模性别形态不仅关乎对话系统、机器翻译等包容性应用,也有助于探查LLM在性别结构中的偏见。然而,目前尚无基准直接评测多语言LLM在句法复杂结构中执行性别特定语法规则的能力。为此,我们提出**MORPHOGEN**,一个聚焦第一人称上下文的形态基准,覆盖法语、阿拉伯语、印地语。我们定义**GENFORM**任务:给定句子和说话者性别,模型需按相反性别重写句子,保持语法正确与句意不变。我们系统利用各语言丰富形态规则构造挑战性样本,评测15款多语言LLM(4B–70B)。贡献如下:

1. 发布首个系统构建的形态级基准,含三语平行英语句对(§3),可用于机器翻译、性别偏见分析等任务;
2. 提出新的性别转换准确率评测指标,适用于翻译与性别偏见检测(§4.2);
3. 在GENFORM任务上评测多款多语言LLM,揭示其对性别形态结构的建模与推理能力。

---

## 2 相关工作  

### 2.1 多语言LLM评测基准  
XTREME覆盖40语9任务,但缺乏形态句法评测;MM-Eval强调多语一致性,却未聚焦性别形态;GlotEval扩至数百语,mHumanEval聚焦代码生成;MuST-SHE、WinoMT仅提供约1k例的罗曼语性别消歧MT数据,规模有限。

### 2.2 性别语言评测  
研究表明,LLM在印地语动词性别变位、阿拉伯语方言语法一致、法语默认阳性等方面均出错。现有基准未系统评测跨语言形态规则应用。与侧重英语描述的Holistic Bias不同,我们直接面向多语语法性别形态生成。

---

## 3 数据集  

### 3.1 数据集描述与统计  
MORPHOGEN含法语9,999句、阿拉伯语2,719句、印地语7,610句,每句提供阳性/阴性第一人称版本及平行英语句。性别差异词即“性别词”。  

| 统计项 | 阿拉伯语 | 法语 | 印地语 |
|---|---|---|---|
| 唯一句对 | 2,719 | 9,999 | 7,610 |
| 规则数 | 14 | 12 | 13 |
| 平均性别词/句 | 2.02 | 1.78 | 1.43 |
| 最大性别词/句 | 7 | 7 | 7 |
| 平均词数/句 | 12.34 | 26.76 | 15.46 |
| 最大词数/句 | 38 | 67 | 87 |

### 3.2 任务定义  
**GENFORM**:输入第一人称句及原说话者性别,模型按相反性别重写,保持句意、流利度与句法结构。

### 3.3 三语性别形态概览  
- **法语**:语义、形态、音系混合,后缀-e常见但例外多,一致性强。  
- **阿拉伯语**:高度规则,主要靠后缀-a表阴性,一致严格。  
- **印地语**:自然性别系统,后缀-ā/-ī分阳阴,一致度中等。  

### 3.4 形态规则构建  
基于语言理论,我们针对动词时态、形容词/职业名词、代词/所有格、从句结构、多实体干扰等设计语言专用规则(详见附录图4、表3)。

相似文章

将LLM性别偏见锚定于人类基线:一项跨语言审计

arXiv cs.CL

本文对六种大型语言模型在英语、韩语、中文和日语中的性别刻板印象进行审计,并以人类基线作为锚定。研究发现,LLM的刻板印象程度往往超过人类跨国差异,且可能跨语言叠加,为此引入了一个四模式框架来表征此类行为。