DVMap: 通过高共识人口统计-价值映射实现细粒度多元价值对齐

arXiv cs.AI 2026/05/15 04:00 论文

摘要

本文介绍了DVMap，一个用于大语言模型细粒度多元价值对齐的框架，它使用高共识的人口统计-价值映射，而非粗略的国家标签，从而在跨人口统计、跨国家和跨价值维度上实现了强的泛化能力。

arXiv:2605.14420v1 公告类型：新摘要：当前的大语言模型（LLMs）通常依赖粗略的国家标签进行多元价值对齐。然而，这种宏观层面的监督往往掩盖了国家内部的价值异质性，导致松散的alignment。我们认为解决这一限制需要从国家标签转向多维人口统计约束，这可以识别出具有可预测的高共识价值偏好的群体。为此，我们提出DVMap（高共识人口统计-价值映射），一个用于细粒度多元价值对齐的框架。在该框架中，我们首先提出了一种人口统计原型提取策略，通过严格保留在相同人口统计属性下具有一致价值偏好的受访者，从世界价值观调查（WVS）中构建了一个包含56,152个样本的高质量价值对齐语料库。基于此语料库，我们引入了结构化思维链（CoT）机制，显式引导LLMs推理人口统计与价值之间的关联。随后，我们使用组相对策略优化（GRPO）实现价值分布的自适应锚定。为了严格评估泛化能力，我们进一步建立了一个三重泛化基准（涵盖跨人口统计、跨国家和跨价值），包含21,553个样本。实验结果表明，DVMap有效学习了从人口统计到价值的流形映射，展现出强大的泛化能力和鲁棒性。在跨人口统计测试中，Qwen3-8B-DVMap达到了48.6%的准确率，超过了先进的开源大语言模型DeepSeek-v3.2（45.1%）。源代码和数据集可在 https://github.com/EnlightenedAI/DVMap 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:24

# DVMap：通过高共识人口统计-价值映射实现细粒度多元价值对齐

来源：https://arxiv.org/html/2605.14420

彭云朱、余琦任¹¹通讯作者。、王真、杨磊、熊德意¹¹通讯作者。天津大学计算机科学与技术学院TJUNLP实验室，中国 \{pengyunzhu, ryq20, tjwangzhen, yanglei_9, dyxiong\}@tju.edu.cn

###### 摘要

当前的大语言模型（LLMs）通常依赖粗粒度的国家标签进行多元价值对齐。然而，这种宏观层面的监督往往掩盖了国家内部的价值异质性，导致对齐松散。我们认为，解决这一局限需要从国家标签转向多维人口统计约束，从而识别那些具有可预测、高共识价值偏好的群体。为此，我们提出DVMap（高共识人口统计-价值映射），一个用于细粒度多元价值对齐的框架。在该框架中，我们首先提出一种人口统计原型提取策略，通过严格保留在相同人口统计条件下具有一致价值偏好的受访者，从世界价值观调查（WVS）中构建包含56,152个样本的高质量价值对齐语料库。在此语料库上，我们引入一种结构化思维链（CoT）机制，明确引导LLMs推理人口统计与价值之间的相关性。随后，我们采用群体相对策略优化（GRPO）实现价值分布的自适应锚定。为了严格评估泛化能力，我们进一步建立了一个包含21,553个样本的三重泛化基准（涵盖跨人口统计、跨国家、跨价值）。实验结果表明，DVMap有效学习了从人口统计到价值的流形映射，展现出强大的泛化能力和鲁棒性。在跨人口统计测试中，Qwen3-8B-DVMap达到48.6%的准确率，超越了先进的开源LLM DeepSeek-v3.2（45.1%）。源代码和数据集可在 https://github.com/EnlightenedAI/DVMap 获取。

## 1 引言

随着LLMs深度融入咨询系统、个性化助手和角色扮演代理等社会应用（Wiggins and Tejani, 2022 (https://arxiv.org/html/2605.14420#bib.bib1); Shen et al., 2023b (https://arxiv.org/html/2605.14420#bib.bib8); Kasneci et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib10); Peng et al., 2025 (https://arxiv.org/html/2605.14420#bib.bib5)），将LLM行为与人类价值观对齐成为AI安全的核心挑战（Askell et al., 2021 (https://arxiv.org/html/2605.14420#bib.bib26); Hendrycks et al., 2021 (https://arxiv.org/html/2605.14420#bib.bib28); Park et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib34); Andreas, 2022 (https://arxiv.org/html/2605.14420#bib.bib53); Shen et al., 2023a (https://arxiv.org/html/2605.14420#bib.bib7); Xu et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib3)）。然而，受以英语为中心的训练语料库主导（Wang et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib47); Gao et al., 2021 (https://arxiv.org/html/2605.14420#bib.bib51)），当前主流LLMs表现出显著的文化偏见，具体表现为过度偏向西方价值观（Johnson et al., 2022 (https://arxiv.org/html/2605.14420#bib.bib27); Shen et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib46); Durmus et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib29); Liu et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib50); Santurkar et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib30)）。为了减轻这种西方价值观的主导地位，近期研究日益转向多元价值对齐，旨在赋予LLMs具有文化意识的推理能力。这些举措主要集中在提示工程（Cao et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib48); Lahoti et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib41); Kovac et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib38)）或在特定文化数据集上进行微调（Li et al., 2024a (https://arxiv.org/html/2605.14420#bib.bib49), b (https://arxiv.org/html/2605.14420#bib.bib36); Feng et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib40)）。然而，这些方法通常依赖于过度理想化的假设，即模型具有足够的内在文化知识（Li et al., 2024a (https://arxiv.org/html/2605.14420#bib.bib49)），或者采用宏观地理标签（例如，提示LLMs“像日本人一样回答”），忽略了国家内部显著的异质性（Kovac et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib38)），第3节（https://arxiv.org/html/2605.14420#S3）对此进行了实证分析。

![参见说明](a)国家内部异质性

![参见说明](b)熵分布

![参见说明](c)人口统计属性重要性

图1：WVS第7波中人口统计-价值共识分析。(a) 某个特定国家内部异质性问题的熵分布较高。(b) 美国所有调查问题的香农熵分布。(c) 基于随机森林的属性重要性热力图，按各价值问题上的预测能力对人口统计属性进行排序。

为解决这一问题，我们提出高共识人口统计-价值映射（DVMap），一个用于细粒度多元价值对齐的框架。DVMap不依赖宽泛的国家标签，而是将对齐粒度转移到多维人口统计属性。具体而言，基于世界价值观调查（WVS）第7波（Haerpfer et al., 2022 (https://arxiv.org/html/2605.14420#bib.bib52)），我们提出一种人口统计原型提取策略，通过香农熵衡量人口统计-价值一致性，从而构建一个高共识的人口统计价值对齐语料库。通过过滤掉低共识样本，我们仅保留价值偏好具有高度内部一致性的人口统计群体。我们的语料库涵盖10个国家和16种价值观，包含56,152个高质量样本。我们进一步引入一种结构化CoT机制，引导LLMs明确阐述人口统计属性与价值偏好之间的社会学联系。在优化方面，我们采用带有二元结果奖励的GRPO，充分利用LLMs内在的语义拓扑结构，高效地将价值分布锚定到目标人口统计原型。为了评估DVMap的泛化能力，我们建立了一个涵盖跨人口统计、跨国家和跨价值场景的三重泛化基准。实验结果表明，我们的方法有效将LLMs与人口统计价值偏好对齐，超越了大多数先进LLMs，同时展现出强大的泛化能力和鲁棒性。我们的主要贡献总结如下：

- • 我们提出DVMap框架，通过学习人口统计属性与价值偏好之间的高共识映射，实现细粒度多元价值对齐。
- • 我们引入一种熵引导的人口统计原型提取策略，从WVS第7波数据库中提炼出高一致性的人口统计-价值语料库，随后应用结构化CoT和GRPO增强LLMs的多元价值对齐能力。
- • 实验结果表明，DVMap显著改善了多元价值对齐，并通过三重泛化评估进一步揭示了强大的泛化能力。

![参见说明]

图2：DVMap框架概览。(a) 数据构建：利用“WVS第7波”，我们首先基于“人口统计原型”策略提取高共识映射。其次，根据Inglehart-Welzel文化地图（Haerpfer et al., 2022 (https://arxiv.org/html/2605.14420#bib.bib52)）进行“国家采样”。第三，按照Pileggi (2024) (https://arxiv.org/html/2605.14420#bib.bib35)的方法进行“问题处理”。通过这些步骤，我们构建了一个高质量的“人口统计价值对齐语料库”，并建立一个“三重泛化评估基准”。(b) 人口统计价值对齐：在“结构化CoT”引导下，策略模型“πθ*”生成与价值相关的“轨迹”。奖励机制根据这些输出分配“奖励”，然后用于计算“相对优势”以进行策略“优化”。(c) 人口统计价值推理对比：关于“让父母自豪”的问题（示例），未训练的LLM错误地假设她的非宗教信仰和高教育水平意味着拒绝家庭期望。相比之下，DVMap认识到在中国儒家文化背景下，她的个人独立与光宗耀祖的传统目标和谐共存。请注意，真实偏好不作为输入提供，仅用于评估和可视化。

## 2 相关工作

#### LLMs中的价值失对齐。
为了弥合LLMs与人类价值观之间的差距，早期工作尝试通过RLHF实现价值对齐（Ouyang et al., 2022 (https://arxiv.org/html/2605.14420#bib.bib24); Rafailov et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib23); Bai et al., 2022 (https://arxiv.org/html/2605.14420#bib.bib20)）。然而，实证研究表明，这些模型仍然未能充分对齐多样的人类价值观，具体表现为明显的西方偏见和刻板印象（Johnson et al., 2022 (https://arxiv.org/html/2605.14420#bib.bib27); Durmus et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib29)），并且常常无法捕捉不同语言编码的非西方文化细微差别（Niszczota et al., 2025 (https://arxiv.org/html/2605.14420#bib.bib44); Arora and Goyal, 2023 (https://arxiv.org/html/2605.14420#bib.bib55); Cao et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib48); Choenni et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib42)）。这一现象主要归因于以英语为中心的训练语料库（Gao et al., 2021 (https://arxiv.org/html/2605.14420#bib.bib51); Liu et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib50)）。此外，He et al. (2024) (https://arxiv.org/html/2605.14420#bib.bib43) 强调了情感和道德表征中的情感差异，而Santurkar et al. (2023) (https://arxiv.org/html/2605.14420#bib.bib30) 和Durmus et al. (2023) (https://arxiv.org/html/2605.14420#bib.bib29) 揭示了模型意见与全球人口统计民调数据之间的显著立场错位。这些发现共同强调了当前模型在公平代表跨身份群体的多元价值观方面普遍失败。

#### 多元价值对齐。
为减轻LLMs中的价值偏见，近期工作积极探索提示工程（Cao et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib48); Lahoti et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib41); Kovac et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib38)）和多元文化微调（Li et al., 2024a (https://arxiv.org/html/2605.14420#bib.bib49), b (https://arxiv.org/html/2605.14420#bib.bib36); Feng et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib40); Xu et al., 2025 (https://arxiv.org/html/2605.14420#bib.bib6)）。然而，这些策略通常依赖宏观分类，如地理区域（Li et al., 2024a (https://arxiv.org/html/2605.14420#bib.bib49), b (https://arxiv.org/html/2605.14420#bib.bib36)），忽略了单一地理标签内部固有的异质性和价值冲突（Durmus et al., 2023 (https://arxiv.org/html/2605.14420#bib.bib29)）。此外，虽然基于身份属性（Choenni and Shutova, 2024 (https://arxiv.org/html/2605.14420#bib.bib39)）或政治立场（Simmons, 2023 (https://arxiv.org/html/2605.14420#bib.bib33); AlKhamissi et al., 2024 (https://arxiv.org/html/2605.14420#bib.bib45)）的提示工程方法已被探索，但此类方法通常建立在一个过度理想化的假设之上：模型拥有足够的先验知识，能以零样本方式模拟复杂的微观群体（Li et al., 2024a (https://arxiv.org/html/2605.14420#bib.bib49)）。为解决这一问题，DVMap通过提供一个人口统计-价值映射中间粒度的可扩展框架，弥合了通用对齐与个性化对齐之间的差距（Guan et al., 2025 (https://arxiv.org/html/2605.14420#bib.bib37)）。

## 3 人口统计价值共识

作为全球价值研究的权威基准，世界价值观调查（WVS）（Haerpfer et al., 2022 (https://arxiv.org/html/2605.14420#bib.bib52)）提供了跨多个维度的人类价值观的综合测量。为了研究人类价值观的复杂性和国家内部价值异质性，我们对WVS第7波进行了人口统计价值共识分析。¹¹¹https://www.worldvaluessurvey.org/

图1(a) (https://arxiv.org/html/2605.14420#S1.F1.sf1) 可视化了一个代表性的高熵示例（H=1.09），其中响应近似均匀分布。图1(b) (https://arxiv.org/html/2605.14420#S1.F1.sf2) 显示，近一半的调查问题（在美国）的熵超过1.0，表明存在广泛的国家内部价值异质性，而这往往被粗粒度的价值对齐方法所忽视。

为了揭示这种异质性的决定因素，我们利用随机森林（Breiman, 2001 (https://arxiv.org/html/2605.14420#bib.bib19)）（通过平均不纯度减少）量化人口统计属性的预测贡献。图1(c) (https://arxiv.org/html/2605.14420#S1.F1.sf3) 中的热力图显示，价值观高度依赖于身份特征：像“宗教”、“收入”或“职业”等属性在预测特定领域价值时显著优于“国家”。这些发现表明，有效减轻国家内部价值异质性需要利用多维人口统计约束，从原始数据中识别可预测、高共识的人口统计-价值映射，从而增强细粒度多元价值对齐。这一见解为我们提出的人口统计价值对齐框架奠定了理论基础。

## 4 DVMap

DVMap是一个基于高共识人口统计-价值映射的细粒度多元价值对齐框架，如图2 (https://arxiv.org/html/2605.14420#S1.F2) 所示。我们首先过滤高熵响应以提取一致的人口统计原型，然后通过第4.1节 (https://arxiv.org/html/2605.14420#S4.SS1) 中的国家采样和问题处理构建高共识的人口统计-价值数据。为了优化LLMs的价值对齐能力，我们在第4.2节 (https://arxiv.org/html/2605.14420#S4.SS2) 中引入结构化CoT和GRPO后训练方法。最后，我们在第4.3节 (https://arxiv.org/html/2605.14420#S4.SS3) 中设计了一个全面的三重泛化评估基准来评估泛化能力。

### 4.1 数据构建

为了解决国家内部价值异质性的挑战，我们通过人口统计原型策略构建了一个高质量的人口统计价值对齐语料库（56,152个样本）。

表1：所选国家的详细信息。

#### 人口统计原型。
首先，基于WVS第7波问卷

DVMap: 通过高共识人口统计-价值映射实现细粒度多元价值对齐

相似文章

通过潜在激活引导的大语言模型文化价值对齐

从描述性到规范性：揭示基于LLM的智能体的社会价值对齐

超越对齐：价值多样性作为多文化代理系统中的集体属性

基于情景的大语言模型文化价值观探测与引导——扩展版

现代大语言模型与人类脑电图中共有的效价轴：饱和规律

提交意见反馈