基于情景的大语言模型文化价值观探测与引导——扩展版
摘要
本文提出一个框架,利用基于情景的行为困境和激活引导来探测和引导大语言模型中的潜在文化价值观,应用于三个模型和四种文化,发现可引导性差异以及文化维度之间的潜在纠缠。
arXiv:2606.11399v1 Announce Type: new
摘要:大语言模型(LLMs)被部署于不同的文化背景中,但往往反映出从训练数据中继承的同质化价值观。文化对齐的评估通常依赖于使用调查式问题的直接提示,这常常引发中立或安全对齐的回应,且未能捕捉到模型的潜在偏好。我们提出一个框架,用于沿世界价值观调查(WVS)的英格尔哈特-韦尔策两个轴探测和引导大语言模型中的潜在文化表征。通过将社会价值观问题转化为基于情景的行为困境,我们提取词元级概率来衡量隐含价值观,并应用激活引导(可选与基于国家的条件提示相结合),以在不重新训练的情况下改变模型行为。在三个开源大语言模型和四种目标文化中,我们发现了可引导性的显著差异,并识别出潜在纠缠,即沿一个文化维度的干预会诱发沿另一个维度的偏移。这种耦合反映了人类WVS数据中的相关性,并且在激活、提示和混合引导中持续存在。它限制了轴独立的对齐,但整体任务性能基本保持不变。
查看缓存全文
缓存时间: 2026/06/11 13:37
# 基于情景的大语言模型文化价值观探测与引导——扩展版 来源:https://arxiv.org/abs/2606.11399 查看 PDF (https://arxiv.org/pdf/2606.11399) > 摘要:大语言模型(LLMs)虽被部署于多种文化场景,但通常反映出训练数据中继承的同质化价值观。现有文化对齐评估多依赖问卷调查式的直接提示,这类方法往往引发中性或安全对齐的回应,难以捕捉模型底层偏好。我们提出一套框架,用于沿世界价值观调查(WVS)的 Inglehart–Welzel 双轴体系,探测并引导 LLMs 中的潜在文化表征。通过将社会价值问题转化为情境化行为困境,我们提取词元级概率以衡量隐含价值观,并应用激活引导(可选配国家条件提示)在无需重训练的前提下改变模型行为。在三个开源 LLM 和四种目标文化上的实验表明,模型可导性存在显著差异,且我们发现潜在纠缠:对某一文化维度的干预会引发另一维度的偏移。这种耦合现象与人类 WVS 数据中的相关性相呼应,并在激活引导、提示引导及混合引导中持续存在——它限制了轴独立对齐的可能性,不过通用任务性能基本得以保持。 ## 提交历史 来自:Tung Kieu \[查看电子邮件 (https://arxiv.org/show-email/14751b09/2606.11399)\] **\[v1\]**周二,2026年6月9日 19:44:23 UTC(12,805 KB)
相似文章
通过潜在激活引导的大语言模型文化价值对齐
一个利用基于场景的行为探测和激活引导来评估和引导大语言模型中文化价值的框架,揭示了价值维度之间的潜在纠缠。
DFKI-MLT在SemEval-2026任务7中:引导多语言模型走向文化知识
本文介绍了用于SemEval-2026任务7(文化意识)的DFKI-MLT系统,该系统利用来自平行FLORES数据的语言向量,对多语言大语言模型应用激活引导。该系统在多项选择题(MCQ)赛道中达到86.96%的准确率,在17支队伍中排名第7,事后分析表明,提升效果对层敏感,且在不同语言-区域对之间存在差异。
超越静态人格:大型语言模型的情境人格引导
本文介绍了IRiS,一种无需训练的情境人格引导框架,它通过识别和利用情境依赖的人格神经元,超越了静态人格建模。该方法表明,大型语言模型的行为随情境变化,并提出了基于神经元的识别、检索和加权引导方法,在PersonalityBench和新增的SPBench基准上得到验证。
模型何时该改变想法?大语言模型中的情境信念管理
本文介绍了面向大语言模型的情境信念管理(CBM)以处理长期信息,提出了用于评估的BeliefTrack基准,并展示了强化学习和表示层面引导显著减少了信念管理失败。
潜在奖励引导:一种在推理大语言模型中隐式促进认知行为的自适应推理时框架
介绍了潜在奖励引导(LRS),一种自适应推理时框架,利用稀疏自编码器的潜在状态和学习的奖励模型,隐式促进推理大语言模型中的验证和回溯等认知行为,从而在多个模型和基准测试中提升性能。