基于情景的大语言模型文化价值观探测与引导——扩展版

arXiv cs.CL 2026/06/11 04:00 论文

摘要

本文提出一个框架，利用基于情景的行为困境和激活引导来探测和引导大语言模型中的潜在文化价值观，应用于三个模型和四种文化，发现可引导性差异以及文化维度之间的潜在纠缠。

arXiv:2606.11399v1 Announce Type: new 摘要：大语言模型（LLMs）被部署于不同的文化背景中，但往往反映出从训练数据中继承的同质化价值观。文化对齐的评估通常依赖于使用调查式问题的直接提示，这常常引发中立或安全对齐的回应，且未能捕捉到模型的潜在偏好。我们提出一个框架，用于沿世界价值观调查（WVS）的英格尔哈特-韦尔策两个轴探测和引导大语言模型中的潜在文化表征。通过将社会价值观问题转化为基于情景的行为困境，我们提取词元级概率来衡量隐含价值观，并应用激活引导（可选与基于国家的条件提示相结合），以在不重新训练的情况下改变模型行为。在三个开源大语言模型和四种目标文化中，我们发现了可引导性的显著差异，并识别出潜在纠缠，即沿一个文化维度的干预会诱发沿另一个维度的偏移。这种耦合反映了人类WVS数据中的相关性，并且在激活、提示和混合引导中持续存在。它限制了轴独立的对齐，但整体任务性能基本保持不变。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:37

# 基于情景的大语言模型文化价值观探测与引导——扩展版
来源：https://arxiv.org/abs/2606.11399
查看 PDF (https://arxiv.org/pdf/2606.11399)

> 摘要：大语言模型（LLMs）虽被部署于多种文化场景，但通常反映出训练数据中继承的同质化价值观。现有文化对齐评估多依赖问卷调查式的直接提示，这类方法往往引发中性或安全对齐的回应，难以捕捉模型底层偏好。我们提出一套框架，用于沿世界价值观调查（WVS）的 Inglehart–Welzel 双轴体系，探测并引导 LLMs 中的潜在文化表征。通过将社会价值问题转化为情境化行为困境，我们提取词元级概率以衡量隐含价值观，并应用激活引导（可选配国家条件提示）在无需重训练的前提下改变模型行为。在三个开源 LLM 和四种目标文化上的实验表明，模型可导性存在显著差异，且我们发现潜在纠缠：对某一文化维度的干预会引发另一维度的偏移。这种耦合现象与人类 WVS 数据中的相关性相呼应，并在激活引导、提示引导及混合引导中持续存在——它限制了轴独立对齐的可能性，不过通用任务性能基本得以保持。

## 提交历史

来自：Tung Kieu \[查看电子邮件 (https://arxiv.org/show-email/14751b09/2606.11399)\] **\[v1\]**周二，2026年6月9日 19:44:23 UTC（12,805 KB）

基于情景的大语言模型文化价值观探测与引导——扩展版

相似文章

通过潜在激活引导的大语言模型文化价值对齐

DFKI-MLT在SemEval-2026任务7中：引导多语言模型走向文化知识

超越静态人格：大型语言模型的情境人格引导

模型何时该改变想法？大语言模型中的情境信念管理

潜在奖励引导：一种在推理大语言模型中隐式促进认知行为的自适应推理时框架

提交意见反馈