DFKI-MLT在SemEval-2026任务7中:引导多语言模型走向文化知识

arXiv cs.CL 论文

摘要

本文介绍了用于SemEval-2026任务7(文化意识)的DFKI-MLT系统,该系统利用来自平行FLORES数据的语言向量,对多语言大语言模型应用激活引导。该系统在多项选择题(MCQ)赛道中达到86.96%的准确率,在17支队伍中排名第7,事后分析表明,提升效果对层敏感,且在不同语言-区域对之间存在差异。

arXiv:2605.23069v1 公告类型:新 摘要:大语言模型(LLM)越来越多地被用于不同的语言和文化背景中,但它们在不同区域和语言中的文化知识仍不均衡。我们介绍了用于SemEval-2026任务7(文化意识)的DFKI-MLT系统,该系统利用从平行FLORES数据中提取的语言向量,对多语言大语言模型应用激活引导。我们的方法通过在选定的Transformer层将特定语言的引导向量添加到残差流中,进行推理时适配,无需任何参数更新。我们参与了简答题(SAQ)和多项选择题(MCQ)两个赛道;然而,只有我们的MCQ提交获得了官方评分。在官方MCQ赛道中,我们达到了86.96%的准确率,在17支队伍中排名第7。为了更好地理解系统行为,我们在共享任务的MCQ和SAQ设置上进行了事后分析。这些分析表明,激活引导在文化推理上产生了适度且异质的改进:增益对层高度敏感,在不同语言-区域对之间存在显著差异,某些配置甚至会降低性能,并且与提示设计相互影响(比较通用提示和文化条件提示)。我们的发现表明,为了实现具有文化意识的多语言推理,应联合优化提示设计和激活引导。
查看原文
查看缓存全文

缓存时间: 2026/05/25 08:58

# DFKI-MLT 在 SemEval-2026 任务7中:引导多语言模型走向文化知识
来源:https://arxiv.org/html/2605.23069
Yusser Al Ghussin¹,²  Daniil Gurgurov¹,²  Yasser Hamidullah¹,²  Josef van Genabith¹,²  Cristina España-Bonet¹,³  Simon Ostermann¹,²

¹德国人工智能研究中心(DFKI GmbH),²萨尔布吕肯信息学园区,德国 ³巴塞罗那超级计算中心(BSC-CNS),巴塞罗那,加泰罗尼亚,西班牙

###### 摘要

大型语言模型(LLMs)越来越多地被应用于多样的语言和文化环境中,但其文化知识在不同区域和语言间仍分布不均。我们介绍了DFKI-MLT系统参与SemEval-2026任务7(文化意识),采用*激活引导*方法,利用从平行FLORES数据中提取的语言向量对多语言LLMs进行引导。我们的方法通过在选定的Transformer层的残差流中添加特定语言的引导向量来实现推理时适应,无需任何参数更新。我们参加了简答题(SAQ)和选择题(MCQ)两个赛道;但只有我们的MCQ提交获得了官方评分。在官方MCQ赛道中,我们达到了86.96%的准确率,在17支队伍中排名第7。为了更好地理解系统行为,我们在共享任务的MCQ和SAQ设置上进行了事后分析。这些分析表明,激活引导对文化推理产生*适度*且*异质*的改进:收益强烈依赖于*层选择*,在不同语言-区域对之间差异显著(某些配置甚至会降低性能),并与提示语形式(通用提示 vs. 文化条件提示)存在交互作用。我们的发现表明,提示语设计和激活引导应联合优化以实现文化感知的多语言推理。我们在 https://github.com/Yusser96/SemEval-2026-Track7 发布了我们的代码和实验配置。

DFKI-MLT 在 SemEval-2026 任务7中:引导多语言模型走向文化知识

## 1 引言

语言文化激活空间:语言文化图1:动机:如果文化与语言表征重叠,且语言身份形成稳定方向,那么使用语言向量进行引导可能会改善对文化相关知识的获取。大型语言模型(LLMs)越来越多地被部署在多语言环境中,但强劲的多语言性能并不一定意味着强大的*文化*能力。近期研究表明,LLMs在文化推理和日常文化知识方面常常表现不佳,尤其是对于代表性不足的区域和语言,即使它们在语言上显得流畅(Myunget al.,2024 (https://arxiv.org/html/2605.23069#bib.bib2); Romeroet al.,2024 (https://arxiv.org/html/2605.23069#bib.bib31))。这些担忧激发了对语言模型中*文化意识*及其评估的日益增长的研究(Pawaret al.,2025 (https://arxiv.org/html/2605.23069#bib.bib9))。这一挑战是SemEval-2026任务7的核心(Ousidhoumet al.,2026 (https://arxiv.org/html/2605.23069#bib.bib1)),该任务使用BLEnD风格的评估协议(Myunget al.,2024 (https://arxiv.org/html/2605.23069#bib.bib2))评估不同语言和文化中的文化知识和推理。

在本文中,我们描述了DFKI-MLT提交至SemEval-2026任务7的系统(Ousidhoumet al.,2026 (https://arxiv.org/html/2605.23069#bib.bib1); Ghoshet al.,2026 (https://arxiv.org/html/2605.23069#bib.bib3))。先前工作提供了机制性证据,表明多语言LLMs在与语言特定组件重叠和交互的表征中编码了文化信息(Namazifard and Poech,2025 (https://arxiv.org/html/2605.23069#bib.bib12)),这表明干预*语言对齐方向*也可能调节与文化相关的行为。受此启发,我们的系统采用*激活引导*:不是通过微调优化模型参数,而是在推理时使用引导向量修改内部激活(Rimskyet al.,2024 (https://arxiv.org/html/2605.23069#bib.bib25))。具体地,我们在生成过程中提取语言引导向量并将其注入多语言LLMs的残差流中。我们基于语言身份在激活空间中编码为稳定方向的证据(Marks and Tegmark,2023 (https://arxiv.org/html/2605.23069#bib.bib83)),并假设沿这些方向进行引导可以改善对文化相关知识的获取(图1 (https://arxiv.org/html/2605.23069#S1.F1))。

我们在多个多语言指令微调模型、提示语和语言上的实验表明,激活引导对文化推理产生*适度*且*异质*的影响:在最佳情况下,我们在单个区域上观察到相对于无引导基线的绝对准确率提升高达+1.5%,但其他配置会降低性能,且收益并非均匀地泛化到所有语言-区域对。这些结果既突显了引导作为一种轻量级推理时干预的吸引力,也展示了其作为文化对齐独立解决方案的当前局限性。

除了报告共享任务性能,我们还旨在对*何时*以及*为何*使用语言向量进行激活引导可以帮助文化推理进行详细分析。

## 2 任务背景

SemEval-2026任务7(Ousidhoumet al.,2026 (https://arxiv.org/html/2605.23069#bib.bib1))评估语言模型和NLP系统在不同语言和区域中的*文化意识*。该任务基于手工构建的BLEnD基准(Myunget al.,2024 (https://arxiv.org/html/2605.23069#bib.bib2)),该基准专为评估设计,因此不提供训练数据。通过不让系统在BLEnD上进行训练,共享任务旨在评估模型能否泛化到未见过的文化和语言环境,而不是记忆基准内容。

BLEnD目前涵盖多种语言和文化,共享任务进一步通过添加额外的语言-文化对扩展了覆盖范围。参与者可以选择参加一个或多个赛道。

#### 赛道1:简答题(SAQ)。

在SAQ赛道中,系统以输入问题的相同语言回答简短问题。目标是生成文化上适当的回应,同时尊重语言和区域差异。答案将与人工标注的BLEnD回应进行评估。

#### 赛道2:多项选择题(MCQ)。

在MCQ赛道中,问题以英语提供,每个问题包含四个代表不同文化视角的选项(每个国家/地区候选区域一个选项,受限于基准构建约束)。系统必须为目标区域选择文化上适当的选项。

MCQ示例问题:在爱尔兰,男性最喜欢观看哪些运动?A. 棒球 B. 篮球 C. 板球 D. 足球正确答案:D

#### 我们的参与。

我们参加了赛道1(SAQ)和赛道2(MCQ)。我们的提交使用从多语言平行数据中提取的语言向量进行推理时激活引导,无需模型微调。

#### 评估指标。

官方指标是准确率,评估设计考虑了有效回应的多样性。在SAQ赛道中,生成的答案如果与同一问题的任何可接受的人工标注回应匹配,则被视为正确。在MCQ赛道中,准确率根据所选选项是否匹配正确的文化适当选择来计算。

## 3 系统概述

我们的SemEval-2026任务7提交采用*激活引导*作为文化感知多语言推理的推理时干预方法。不是微调模型参数,我们通过在推理时向选定Transformer层的残差流添加引导向量进行干预。

核心假设是语言身份在激活空间中编码为一个方向(Marks and Tegmark,2023 (https://arxiv.org/html/2605.23069#bib.bib83)),并且沿此方向引导可以调节对目标语言-区域对文化相关知识的获取。因此,我们从多语言句子表示中构建语言向量,并在解码过程中注入。

系统包含三个组件:

1. 1.基于FLORES多语言数据的*离线语言向量提取*;
2. 2.具有可调强度β\\beta的*推理时激活引导*;
3. 3.使用SemEval-2026开发阶段进行的*开发时模型/层选择/引导强度*。

在最终提交中,我们基于开发性能选择了一个单一的引导配置,并应用于两个共享任务赛道。

### 3.1 语言向量提取

我们从FLORES(Teamet al.,2022 (https://arxiv.org/html/2605.23069#bib.bib8))句子中通过平均残差流激活并取均值差异来计算语言向量,类似于AxBench中使用的方法(Wuet al.,2025 (https://arxiv.org/html/2605.23069#bib.bib84))。令h\(l\)\(x\)h^\{\(l\)\}\(x\)表示输入句子xx在层ll处的归一化后残差流激活。对于目标语言l\\ell,语言向量定义为:

vl\(l\)=1\|Dl\|∑x∈Dlh\(l\)\(x\)−1\|D¬l\|∑x∈D¬lh\(l\)\(x\),v\_\{\\ell\}^\{\(l\)\}=\\frac\{1\}\{\|D\_\{\\ell\}\|\}\\sum\_\{x\\in D\_\{\\ell\}\}h^\{\(l\)\}\(x\)\-\\frac\{1\}\{\|D\_\{\\neg\\ell\}\|\}\\sum\_\{x\\in D\_\{\\neg\\ell\}\}h^\{\(l\)\}\(x\),\(1\)其中DlD\_\{\\ell\}是目标语言的句子集,D¬lD\_\{\\neg\\ell\}是其余语言的句子集。

#### 激活提取细节:

我们使用*归一化后的残差流*,并计算每个句子中*所有token*的平均激活。句子逐个处理,在向量提取过程中不使用额外的提示模板(即直接输入原始FLORES句子)。

#### FLORES到共享任务语言-区域对的映射:

BLEnD针对语言-区域对(例如ar-DZ, es-MX),而FLORES(Teamet al.,2022 (https://arxiv.org/html/2605.23069#bib.bib8))提供语言/文字标识符。因此我们定义一个从共享任务对到FLORES语言代码的映射。对于某些FLORES中无法获得精确区域映射的情况(例如多个区域共享同一种语言变体),我们使用最接近的可用的FLORES语言级代码(例如多个西班牙语区域的共享西班牙语代码)进行近似。附录A (https://arxiv.org/html/2605.23069#A1)提供了完整映射。

#### 数据大小和预处理:

对于每个映射的语言,我们使用前1,000个可用的FLORES开发句子(Teamet al.,2022 (https://arxiv.org/html/2605.23069#bib.bib8))来计算向量。除了模型分词器的标准分词外,我们不进行额外的预处理。附录B (https://arxiv.org/html/2605.23069#A2)中的样本量收敛性研究表明,在我们分析的模型中,所得的DiffMean方向在明显更小的样本量下已经高度稳定。

### 3.2 推理时引导

在推理过程中,我们在选定的Transformer层对隐藏状态进行引导:

h~\(l\)=h\(l\)\+β⋅vl\(l\),\\tilde\{h\}^\{\(l\)\}=h^\{\(l\)\}\+\\beta\\cdot v\_\{\\ell\}^\{\(l\)\},\(2\)其中vl\(l\)v\_\{\\ell\}^\{\(l\)\}是目标语言的语言向量,β\\beta是标量引导强度。

我们在开发期间评估了一小组引导强度β∈\{1,3,5\}\\beta\\in\\\{1,3,5\\\},并发现β=1\\beta=1在我们的设置中对于文化引导效果最佳。最终提交中使用了该值。

### 3.3 开发时模型和层选择

我们在SemEval开发阶段通过对一组多语言指令微调LLMs和候选引导层进行评估来进行模型和层选择。我们测试了在大小和性能上有助于多语言环境的老旧和新模型,包括Qwen2.5-72B-Instruct和Qwen2.5-7B-Instruct(Team,2024 (https://arxiv.org/html/2605.23069#bib.bib5))、Aya Expanse 8B和Aya Expanse 32B(Danget al.,2024 (https://arxiv.org/html/2605.23069#bib.bib6)),以及Qwen3-8B和Qwen3-32B(Team,2025 (https://arxiv.org/html/2605.23069#bib.bib4))。

基于开发性能,我们选择**Qwen2.5-72B-Instruct**并在**第26层**应用引导作为最终共享任务提交。

## 4 实验设置

### 4.1 解码与推理

我们对两个赛道均使用贪婪解码(temperature=0),以最小化评估激活引导时的混淆因素。由于我们的方法直接干预内部表示,随机解码(例如使用非零温度采样)会引入额外方差,从而可能掩盖性能变化是由干预还是解码随机性引起的。因此,确定性解码可以更清晰地将增益或退化归因于引导配置(层和β\\beta),并提高层扫描和提示语比较之间的可重复性。

#### 赛道2(MCQ):

对于每个问题,我们提示模型从A/B/C/D中选择一个选项。我们使用答案字母的*输出对数概率*进行评分,并选择对数概率最高的选项。我们最多生成1个token。

#### 赛道1(SAQ):

我们最多生成32个token,以平衡完整性和评估稳定性。虽然SAQ针对简洁答案,但由于分词和形态学差异(例如多词表达),不同语言所需的长度不同,过度限制可能导致原本正确的答案被截断。同时,较长的生成会增加不相关延续的可能性,从而影响近乎精确的匹配。为减少格式伪影,我们对生成的文本应用轻量级归一化过程(归一化细节见附录C (https://arxiv.org/html/2605.23069#A3))。

### 4.2 提示策略

我们在分析过程中评估了两种提示语形式:*通用提示*和*文化提示*。官方共享任务提交使用*文化提示*。

#### 通用提示:

通用提示指示模型回答问题(或选择MCQ选项),而不在指令文本中明确提及目标区域或语言。

通用提示模板请选择恰好一个选项:A、B、C或D。问题:\{question\}A. \{option\_a\}B. \{option\_b\}C. \{option\_c\}D. \{option\_d\}答案(A/B/C/D):

#### 文化提示(官方提交):

文化提示明确以目标区域和语言作为条件(例如“为居住在\[区域\]的人回答”和“请使用\[语言\]回应”)。对于SAQ,它还额外指示模型生成不含解释的简洁答案。

文化提示模板您正在为居住在\{Region\}的人回答一个多项选择题。请严格使用\{Language\}回应,并选择恰好一个选项:A、B、C或D。问题:\{question\}A. \{option\_a\}B. \{option\_b\}C. \{option\_c\}D. \{option\_d\}答案(A/B/C/D):

### 4.3 超参数

我们在SemEval-2026开发阶段从β∈\{1,3,5\}\\beta\\in\\\{1,3,5\\\}中选择引导强度,并在最终提交中使用β=1\\beta=1。我们进行层扫描以确定最佳引导深度。引导层(第26层)和骨干模型(Qwen2.5-72B-Instruct)也基于开发性能选择以获取官方结果。

## 5 结果与分析

表1:我们提交的SemEval-2026任务7官方结果。官方提交使用*文化提示*。我们的SAQ提交因文件损坏/不正确未被评估,因此无官方评分。

相似文章

跨语言引导的比喻语言生成

arXiv cs.CL

本文探讨了多语言大语言模型中内部表示的跨语言迁移,用于比喻语言生成,表明在一种语言中学习到的激活方向可以有效引导其他语言的生成。