C-Mining:通过几何错位无监督发现文化数据合成的种子

arXiv cs.CL 论文

摘要

C-Mining提出了一个无监督框架,通过利用嵌入空间中的跨语言几何错位来发现LLM训练数据中的文化种子,实现可扩展的合成数据生成以支持文化对齐,无需手动或LLM监督。

arXiv:2604.15675v1 公告类型:新发布 摘要:大语言模型(LLMs)中的文化对齐越来越依赖于合成数据生成。对于此类合成,最关键的初步步骤是种子策展;然而,现有方法缺乏量化的种子选择标准。现有方法依赖于不可扩展的手动策展或容易产生偏差的LLM提取,将文化特异性视为抽象概念而非可测量的信号。在本文中,我们通过提出C-Mining来解决这一"量化差距"问题。C-Mining是一个无监督框架,将文化种子的发现从主观选择过程转变为可计算的数据挖掘问题。我们的方法利用一个新颖的几何洞察,将预训练嵌入空间中文化概念的跨语言错位作为可量化的发现信号加以利用。通过系统地识别具有明显语言排他性和几何隔离特征的区域,同时主动过滤噪声,C-Mining可以从原始多语言语料库中自动提取高保真度的文化点(CPs),无需人工或LLM监督,将准备成本降低超过150倍。我们进一步利用挖掘的知识来指导多样化指令微调数据集的合成。广泛的实验表明,这种以种子为中心的方法显著增强了文化理解和推理能力,在CulturalBench-Hard上实现了+6.03分的改进,超越了最先进的基线方法,为高质量文化数据合成提供了可扩展、量化的解决方案。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:28

# C-Mining:通过几何错位无监督发现文化数据合成种子

来源:https://arxiv.org/html/2604.15675

Pufan Zeng1,3, Yilun Liu1✉, Mingchen Dai1,3, Mengyao Piao1, Chunguang Zhao1, Lingqi Miao1, Shimin Tao1, Weibin Meng2, Minggui He1, Chenxin Liu1, Zhenzhen Qin1, Li Zhang1, Hongxia Ma1, Boxing Chen2, Daimeng Wei1

###### 摘要

大型语言模型(LLM)的文化对齐越来越依赖于合成数据生成。对于这样的合成,最关键的初始步骤是种子策展;然而,当前方法缺乏选择这些种子的可量化标准。现有方法依赖于不可扩展的人工策展或容易产生偏差的LLM提取,将文化特异性视为抽象概念而非可测量信号。在本文中,我们通过提出C-Mining来解决这个"量化差距",这是一个无监督框架,将文化种子的发现从主观选择过程转变为可计算的数据挖掘公式。我们的方法利用一个新颖的几何洞察,充分利用预训练嵌入空间中文化概念的跨语言错位作为可量化的发现信号。通过系统地识别这些以显著语言独特性和几何隔离为特征的区域,同时积极过滤噪声,C-Mining自动从原始多语言语料库中提取高保真度的Culture Points(CPs),无需依赖人类或LLM监督,将准备成本降低超过150倍。我们进一步利用挖掘的知识来指导多样化指令调优数据集的合成。广泛的实验表明,这种以种子为中心的方法显著增强了文化理解和推理能力,在CulturalBench-Hard上实现了+6.03分的改进,并超越了最先进的基准,为高质量文化数据合成提供了可扩展、可量化的解决方案。

数据挖掘、大型语言模型、无监督学习、种子发现、合成数据生成

✉ 通讯作者。电子邮件:[email protected]

## 1. 介绍

大型语言模型(LLM)的训练格局从根本上受到不均衡数据分布的影响,其中以英文为中心的语料库在预训练目标中压倒性地占主导地位。这种统计优越性导致了本地化知识长尾的"表示崩溃",导致高资源叙述系统性地掩盖特定区域细微差别。这种偏斜的直接后果是模型未能捕捉多样化的文化背景,通常导致幻觉,其中主导范式被强加于本地情景。纠正这些根深蒂固的偏差超出了通用提示的能力,需要在目标领域数据上进行监督微调(SFT)。然而,这种对齐的有效性完全取决于一个以数据为中心的干预:具体来说,是高质量、特定文化样本的合成,以有效地恢复这些代表性不足的分布。

然而,获取这样的高保真度训练数据呈现了可扩展性和质量之间的根本困境。原生语料库的人工策展成本高昂且不可扩展。为了解决这种稀缺性,社区采用了"文化种子+LLM"合成范式,其中特定文化知识(种子)用于指导LLM生成大规模指令数据集。然而,这种方法面临一个关键的挖掘瓶颈:没有高保真度的种子来积极约束生成空间,合成LLM不可避免地会退回到其主导的、高资源的先验。因此,一个高效的种子发现方法是这个流程中的决定性因素,决定了合成数据是否能有效弥合分布差距,或仅仅放大现有偏差。

尽管种子的作用至关重要,但社区将其视为静态前提而非科学目标,不恰当地将优先级置于下游合成之上而非严格的种子构建。缺乏系统框架,现有方法依赖主观代理——将LLM或人类注释者作为文化相关性的唯一判断者。因此,这些方法面临覆盖率、可靠性和可扩展性的汇聚限制:

(1)覆盖不足:LLM驱动的方法通常倾向于表面刻板印象。专家评估表明,由这些方法过滤的种子通常表现出受限的文化特异性,未能捕捉本地使用者可以获得的长尾细微差别。

(2)质量有偏差:无指导的合成风险强化偏差循环。例如,通过既定自我改进流程训练的模型在下游文化推理任务中表现不佳,表明高容量合成无法弥补高保真度种子的缺乏。

(3)可扩展性不一致:虽然专家策展可以确保质量,但它本质上是不可扩展的。验证数千个全球亚文化的种子需要巨大投资,使人工监督对综合文化对齐而言不切实际。

为了弥补这个种子差距,我们倡导一个知识发现范式,将种子发现从主观选择过程转变为可计算的数据挖掘任务。我们提出C-Mining,这是一个无监督框架,可自动从原始多语言语料库中提取高保真度的文化种子。通过利用冻结的多语言嵌入中固有的几何错位,我们的方法有效地将"文化特异性"操作化为可测量的拓扑特征,支持无需依赖人类或LLM主观判断的高价值种子的目标发现。

我们的方法基于多语言预训练中固有的对齐机制分析。在大规模多语言语料库的预训练阶段,LLM执行无监督对齐,其中共享的通用概念由于其语义等价性在语言间自发收敛。因此,独特的文化知识表现为不同的几何特征:以最小跨语言对齐但高语言内同质性为特征的岛屿。虽然噪声(例如罕见标记)也可能显示不对齐,但C-Mining通过基于嵌入语义密度进行过滤来有效隔离真实文化知识,确保纯粹通过无监督分析实现稳定性。例如,虽然通用术语如Apple或Mathematics通过映射到其跨语言等价物表现出强跨语言对齐,但中文术语"江湖"——代表中国古代独特的社会道德秩序——在其本地语言空间内作为密集、隔离的集群在几何上保持锚定,抵抗被强制与全球语义空间对齐。

C-Mining将这种错位视为一个判别信号而非缺陷。通过遍历嵌入空间来识别这些未对齐的区域,我们提取被定义为Culture Points(CPs)的代表性术语来引导数据合成。这种方法系统地解决了上述瓶颈:它通过直接从原始语料库挖掘知识的长尾来克服表面覆盖不足,绕过肤浅的刻板印象;它通过从稳定的、本地使用模式而非有偏差的模型预测中导出锚点来减少偏差;它通过完全无监督的流程实现可扩展性,消除了进行昂贵人工干预的需要。

广泛的实验表明,使用基于CP的指令进行微调显著增强了LLM的文化推理能力,表明种子质量在确定文化对齐上界中起着关键作用。

总结一下,我们的主要贡献是:

- 我们将文化特异性的挑战(传统上被视为抽象且难以量化)转变为可计算的数据挖掘公式。这个范式转变为文化数据合成提供了一个新颖、定量的解决方案路径,超越了主观策展转向客观指标计算。

- 我们引入C-Mining,一个新颖的无监督框架,通过量化嵌入的几何错位来挖掘高保真度的文化种子,无需依赖外部监督,从而在文化数据合成中实现可扩展性和质量,同时将准备成本降低超过150倍。

- 我们利用挖掘的Culture Points(CPs)合成指令调优数据集,展示了文化推理的显著改进(例如,在CulturalBench-Hard上+6.03分);此外,我们将向社区发布代码和数据。

图1. C-Mining流程概述。该算法利用冻结嵌入的几何特性来识别CPs——以高语言内同质性和低跨语言对齐为特征的知识——充当指令调优的真实种子。

## 2. 相关工作

### 2.1. 文化对齐和数据合成

将LLM与多样化文化背景对齐的最近进展主要集中在后训练数据合成上。一个主导范式涉及利用社会学框架——如世界价值观调查(EVS/WVS)——作为初始锚点。代表性框架如CultureLLM和CulturePark采用LLM来提取和合成以WVS为锚点的文化数据。采取不同路线,CultureSynth使用LLM来扩展通用文化关键词,然后进行知识检索过程以构建跨语言QA对。与此同时,其他方法关注策展策略:CultureBank利用自定义训练的分类器来分类来自在线源的文化内容,而CultureFit直接从预先存在的文化基准中提取种子来驱动其合成流程。

尽管取得了这些进展,但当前方法面临两个源于其对模型能力依赖的关键瓶颈。首先,关于基于LLM的种子提取,依赖模型来策展或过滤初始锚点——无论是来自社会学调查还是开放式查询——通常将覆盖范围限制在高可见性文化符号。这个提取过程往往忽视了微妙、本地化细微差别的"长尾",导致数据集反映模型的现有选择偏差而非真实的文化广度。其次,关于基于LLM的种子扩展,采用模型将这些种子扩展为复杂新种子的做法存在"自我强化循环"的风险。即使有有效的种子,过度扩展过程通常会由于预训练惯性而退回到占主导地位的西方视角,导致同质化的合成数据,缺乏目标语言的具体"文化灵魂"。

### 2.2. 多语言空间中的分布散度

关于多语言LLM的研究广泛探索了不同语言如何共享统一语义空间。理想情况下,多语言预训练会诱导共享对齐,其中概念具有跨语言通用性。然而,经验证据表明这种对齐高度不均匀。虽然高频率、全球共享概念往往收敛,但不同的语言细微差别通常抵抗对齐,导致显著的表示散度。这种现象创建了一个分层嵌入空间:一个由通用(跨语言共享)知识主导的密集、对齐核心,周围是包含语言特定语义的稀疏、未对齐的外围。当前方法主要关注改进知识从核心到外围的"转移"以缓解这个差距。因此,未对齐的外围通常被忽视或仅被视为性能降解的来源。

相比之下,我们的方法重新评估这些散度区域的效用。我们主张抵抗对齐不是模型的失败,而是独特语义内容的几何指标,可以系统地挖掘以指导更真实的指令调优。

## 3. 方法

### 3.1. 概述

随着LLM在全球范围内规模扩大,使其能够感知文化细微差别仍然是一个关键挑战。我们提出了一个以CPs为中心的框架——深深嵌入文化语义的种子——来指导文化对齐数据集的生成。这个框架的核心是C-Mining,一个无监督算法,设计用于通过利用嵌入空间中的几何错位从原始多语言语料库自主提取CP。如图1所示,C-Mining包括两个主要阶段:(1)单语言高质量数据过滤

相似文章