MORPHOGEN：评估性别感知形态生成的多语言基准

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究者发布 MORPHOGEN，一个多语言基准，用于测试大模型能否在法语、阿拉伯语和印地语中将第一人称句子改写为相反性别，同时保留原意。

arXiv:2604.18914v1 公告类型：新增摘要：尽管多语言大语言模型（LLM）在翻译、问答等高阶任务上表现良好，它们对语法性别和形态一致性的处理能力仍未被充分研究。在形态丰富的语言中，性别会影响动词变位、代词，甚至影响显性与隐性提及性别的第一人称结构。我们推出 MORPHOGEN，一个基于形态的大规模基准数据集，用于评估三种类型迥异的带语法性别语言（法语、阿拉伯语、印地语）中的性别感知生成。核心任务 GENFORM 要求模型将第一人称句子改写为相反性别，同时保留含义与结构。我们构建了覆盖这三种语言的高质量合成数据集，并对 15 个主流多语言 LLM（2B–70B）在此任务上的表现进行基准测试。结果显示，当前模型在形态性别处理上存在显著差距，并揭示出有趣的现象。MORPHOGEN 为性别感知语言建模提供了聚焦的诊断视角，并为未来包容性、形态敏感的 NLP 研究奠定基础。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:29

# MORPHOGEN：评估性别感知形态生成的多语言基准  
来源：https://arxiv.org/html/2604.18914  
Mehul Aggarwal♡　Aditya Agarwal♡¹　Arnav Goel♡¹　Medha Hira♡¹　Anubha Gupta♡  
♡SBILab，德里印度信息技术学院　[email protected]  
![无题图像](https://arxiv.org/html/2604.18914v1/images/github-logo.png)[代码](https://github.com/arnav10goel/Morphogen)  
![无题图像](https://arxiv.org/html/2604.18914v1/images/huggingface_logo.png)[数据集](https://huggingface.co/datasets/ag2003/morphogen)  

###### 摘要  
尽管多语言大语言模型（LLM）在翻译、问答等高层任务上表现优异，其处理语法性别与形态一致性的能力仍鲜少被探究。在形态丰富的语言中，性别会影响动词变位、代词乃至第一人称结构中的显性与隐性性别指代。为此，我们推出**MORPHOGEN**——一个面向性别感知形态生成的大规模基准，涵盖三种类型迥异的语法性别语言：法语、阿拉伯语与印地语。核心任务**GENFORM**要求模型将第一人称句子改写为相反性别，同时保持句意与结构不变。我们构建了覆盖三语的高质量合成数据集，并在15款主流多语言LLM（2B–70B）上评测其转换能力。结果揭示了当前模型在形态性别处理上的差距与新见解。MORPHOGEN为性别感知语言建模提供了聚焦的诊断视角，并为包容性、形态敏感的NLP研究奠定基础。

---

## 1 引言  
![图1：三语性别形态差异示例](https://arxiv.org/html/2604.18914#S1.F1)

多语言大语言模型在摘要、翻译、问答等任务上表现强劲，但主流评测基准（XTREME、Global-MMLU、MM-Eval、BenchMAX、IndicGenBench等）因翻译质量差、数据污染、偏重高层语义任务，难以细分模型在形态丰富或跨文化场景下的细粒度缺陷。随着LLM在多语环境部署，检验其能否正确应用形态规则变得至关重要，尤其在法语、阿拉伯语、印地语等语法性别丰富的语言中：性别影响动词、代词、形容词乃至词序，第一人称句子常隐含性别标记（图1）。精准建模性别形态不仅关乎对话系统、机器翻译等包容性应用，也有助于探查LLM在性别结构中的偏见。然而，目前尚无基准直接评测多语言LLM在句法复杂结构中执行性别特定语法规则的能力。为此，我们提出**MORPHOGEN**，一个聚焦第一人称上下文的形态基准，覆盖法语、阿拉伯语、印地语。我们定义**GENFORM**任务：给定句子和说话者性别，模型需按相反性别重写句子，保持语法正确与句意不变。我们系统利用各语言丰富形态规则构造挑战性样本，评测15款多语言LLM（4B–70B）。贡献如下：

1. 发布首个系统构建的形态级基准，含三语平行英语句对（§3），可用于机器翻译、性别偏见分析等任务；
2. 提出新的性别转换准确率评测指标，适用于翻译与性别偏见检测（§4.2）；
3. 在GENFORM任务上评测多款多语言LLM，揭示其对性别形态结构的建模与推理能力。

---

## 2 相关工作  

### 2.1 多语言LLM评测基准  
XTREME覆盖40语9任务，但缺乏形态句法评测；MM-Eval强调多语一致性，却未聚焦性别形态；GlotEval扩至数百语，mHumanEval聚焦代码生成；MuST-SHE、WinoMT仅提供约1k例的罗曼语性别消歧MT数据，规模有限。

### 2.2 性别语言评测  
研究表明，LLM在印地语动词性别变位、阿拉伯语方言语法一致、法语默认阳性等方面均出错。现有基准未系统评测跨语言形态规则应用。与侧重英语描述的Holistic Bias不同，我们直接面向多语语法性别形态生成。

---

## 3 数据集  

### 3.1 数据集描述与统计  
MORPHOGEN含法语9,999句、阿拉伯语2,719句、印地语7,610句，每句提供阳性/阴性第一人称版本及平行英语句。性别差异词即“性别词”。  

| 统计项 | 阿拉伯语 | 法语 | 印地语 |
|---|---|---|---|
| 唯一句对 | 2,719 | 9,999 | 7,610 |
| 规则数 | 14 | 12 | 13 |
| 平均性别词/句 | 2.02 | 1.78 | 1.43 |
| 最大性别词/句 | 7 | 7 | 7 |
| 平均词数/句 | 12.34 | 26.76 | 15.46 |
| 最大词数/句 | 38 | 67 | 87 |

### 3.2 任务定义  
**GENFORM**：输入第一人称句及原说话者性别，模型按相反性别重写，保持句意、流利度与句法结构。

### 3.3 三语性别形态概览  
- **法语**：语义、形态、音系混合，后缀-e常见但例外多，一致性强。  
- **阿拉伯语**：高度规则，主要靠后缀-a表阴性，一致严格。  
- **印地语**：自然性别系统，后缀-ā/-ī分阳阴，一致度中等。  

### 3.4 形态规则构建  
基于语言理论，我们针对动词时态、形容词/职业名词、代词/所有格、从句结构、多实体干扰等设计语言专用规则（详见附录图4、表3）。

MORPHOGEN：评估性别感知形态生成的多语言基准

相似文章

前沿LLM在阿拉伯文化和社会语言学知识上的基准测试：一个带有人类专家真值的交叉评估框架

将LLM性别偏见锚定于人类基线：一项跨语言审计

Almieyar-Oryx-BloomBench：一种用于认知驱动评估视觉语言模型的双语多模态基准

XLGoBench: 通过算法任务检测跨语言技能差距

迷失于翻译？探究从拉丁语到奥克语语法性别的演变

提交意见反馈