LLMs 能推断文化背景但回应时未能应用
摘要
本文介绍了 CAPRI,一个用于评估 LLMs 是否能够从对话线索中推断用户文化背景并相应调整回应(例如使用适当的计量单位)的数据集。实验表明,LLMs 能够推断文化背景,但除非明确提示,否则常常未能应用这一信息。
arXiv:2606.17688v1 公告类型:新
摘要:近期研究表明,LLMs 过度代表主导文化(尤其是西方文化),同时边缘化其他文化。我们通过评估模型基于用户感知的文化背景使用当地计量单位的能力,探究这是否影响模型生成文化适应性回应的能力。我们引入了文化与语用回应推断(CAPRI),一个包含不同文化线索水平的对话数据集。对最先进 LLMs 的实验表明,模型能够推断文化背景并回忆相关惯例,但除非被明确要求按顺序执行任务,否则往往无法利用这些信息来调整其回答以符合相关文化惯例。我们进一步评估了模型对时间与数量表达解释的适应性,这是两个受文化影响的主观语言落地维度。我们发现,随着文化线索的积累,模型会越来越适应其回答,但其先验知识并非文化中立,有时会与模型来源国保持一致。总体而言,CAPRI 为未来旨在缩小文化知识与文化适应性语言生成之间差距的研究提供了资源。
查看缓存全文
缓存时间: 2026/06/17 05:41
# 大语言模型能推断文化背景,但回应时未能运用该信息 来源:https://arxiv.org/html/2606.17688 苗以松§†蒋剑†Vered Shwartz†‡ †不列颠哥伦比亚大学‡加拿大CIFAR AI讲座教授、向量研究所§新加坡国立大学 yisong@comp\.nus\.edu\.sgjian\.zhu@ubc\.cavshwartz@cs\.ubc\.ca ###### 摘要 近期研究表明,大语言模型过度呈现主流文化(尤其是西方文化),同时边缘化其他文化。我们探究这是否会影响模型生成适应文化背景的回复能力,通过评估模型根据用户感知文化背景使用当地计量单位的情况。我们引入了**文化与语用回应推断**(CAPRI)数据集,其中包含不同文化线索强度的对话。对最先进大语言模型的实验表明,模型能够推断文化背景并回忆相关惯例,但往往无法利用这些信息使答案符合相关文化惯例,除非被明确提示按顺序执行任务。我们进一步评估了模型对时间和数量表达解读的适应性——这是两个受文化影响的主观语言接地维度。我们发现,随着文化线索积累,模型越来越能调整它们的答案,但它们的先验并非文化中立,有时会偏向模型原产国。总体而言,CAPRI为未来旨在缩小文化知识与文化自适应生成之间差距的研究提供了资源。 大语言模型能推断文化背景,但回应时未能运用该信息 苗以松§†††感谢:本研究在苗以松于不列颠哥伦比亚大学NLP实验室进行向量研究所研究实习期间完成。蒋剑†Vered Shwartz†‡†不列颠哥伦比亚大学‡加拿大CIFAR AI讲座教授、向量研究所§新加坡国立大学yisong@comp\.nus\.edu\.sgjian\.zhu@ubc\.cavshwartz@cs\.ubc\.ca ## 1 引言 参见图注 图1:CAPRI的形式化:模型应从对话中的文化线索推断用户的背景(BG;任务1),并根据该背景调整答案(VQA;任务2)。 近年来,大语言模型的文化能力受到大量研究关注,得出一致证据表明LLMs以西方为中心,甚至以美国为中心 [Hershcovich等人 (2022) (https://arxiv.org/html/2606.17688#bib.bib19); Cao等人 (2023) (https://arxiv.org/html/2606.17688#bib.bib6); DURMUS等人 (2024) (https://arxiv.org/html/2606.17688#bib.bib12)]。考虑到其多样化的用户群体,开发不夸大某些文化并边缘化其他文化的LLMs势在必行 [Tao等人 (2024) (https://arxiv.org/html/2606.17688#bib.bib40)]。然而,对LLMs究竟有何期望仍有争议。一种方法是针对特定用户的文化个性化LLM输出 [Cao等人 (2024) (https://arxiv.org/html/2606.17688#bib.bib4),2025a (https://arxiv.org/html/2606.17688#bib.bib5)]。这种方法并非万能;过度个性化模型输出可能导致无意中放大信息茧房、忽视文化差异(例如,对双文化个体)、过度纠正用户意图以及固化刻板印象 [Kantharuban等人 (2025) (https://arxiv.org/html/2606.17688#bib.bib23); Liu等人 (2025b) (https://arxiv.org/html/2606.17688#bib.bib27)]。在这项工作中,我们专注于一个相对安全的基于用户文化进行个性化的方面:计量单位,如货币、距离、尺寸和温度。与文化规范不同,这些单位在一个国家内部是标准化的,为我们衡量文化适应性提供了精确目标。 我们收集了**文化与语用回应推断**(CAPRI)数据集,其中包含不同程度揭示用户文化背景的对话(图1 (https://arxiv.org/html/2606.17688#S1.F1))。我们测试LLMs能否明确推断用户的文化背景(BG;任务1),以及它们能否隐式推理用户背景以在视觉问答任务(VQA;任务2)中适应当地计量单位作答。任务2衡量LLMs是否扮演“语用说话者” [Frank和Goodman (2012) (https://arxiv.org/html/2606.17688#bib.bib15)],调整答案以最大化用户理解。对四个最先进LLMs系列的评估揭示了推断用户背景的能力与相应调整答案的能力之间存在显著差距。在有1-2个文化线索的情况下,模型几乎能完美识别文化背景,但在调整VQA任务答案方面仍显不足。令人鼓舞的是,明确推理能提升性能。当被引导逐步进行语用推理时,LLMs弥合了BG任务和VQA任务之间的差距。 我们进一步测试了另外两个更为主观但先前研究表明存在文化差异的语言接地维度:时间表达(例如,**早晨**和**下午**)和数量表达(例如,**少数**和**一些**)。我们的评估显示,随着更多文化线索积累,LLMs在一定程度上调整了它们的回答;然而,模型表现出非中立的先验文化偏向,有时倾向于其原产国。与先前研究LLMs是否拥有文化知识的工作不同 [Mor-Lan等人 (2026) (https://arxiv.org/html/2606.17688#bib.bib28)],CAPRI区分了“了解用户文化”与“根据文化行动”。我们的发现表明,当前LLMs孤立地存储相关文化事实,但并未将其关联起来:一个模型能识别用户背景并回忆一种文化的惯例,却在回答时未能将两者结合。我们发布CAPRI以支持未来弥合文化知识与文化自适应生成之间差距的研究。¹¹¹可在 https://github.com/YisongMiao/CAPRI 获取。 ## 2 数据集 CAPRI数据集旨在模拟LLMs与用户的对话,并测试LLMs如何根据感知到的用户文化调整答案。给定一段对话历史和一个问题,模型需要(1)从对话中的线索推断用户背景,以及(2)以最大化用户理解的方式、以文化特定的方式回答用户问题。我们定义了任务(§2.1 (https://arxiv.org/html/2606.17688#S2.SS1)),介绍了数据集中的文化变量(§2.2 (https://arxiv.org/html/2606.17688#S2.SS2)),并描述了数据集的创建和统计(§2.3 (https://arxiv.org/html/2606.17688#S2.SS3))。 ### 2.1 任务定义 受理性言语行为框架(RSA; Frank和Goodman,2012 (https://arxiv.org/html/2606.17688#bib.bib15))启发,我们期望LLMs*在这样做能最大化交流效果时*调整其回复以适应用户背景。例如,当被问到“我应该将烤箱设置到多少温度?”时,模型应根据对话历史中感知到的用户文化,生成“40 °C”或“104 °F” [Shwartz (2025) (https://arxiv.org/html/2606.17688#bib.bib36)]。具体来说,受“语用说话者” [Frank和Goodman (2012) (https://arxiv.org/html/2606.17688#bib.bib15)]启发的模型应执行两项任务: **任务1:背景推断(BG)。** P(B∣X) 其中B是用户的文化背景,X是对话历史。我们将文化背景具体化为与对话上下文线索最一致的国家(§2.2 (https://arxiv.org/html/2606.17688#S2.SS2))。我们期望LLMs在回答用户问题时隐式执行此任务。 **任务2:视觉问答(VQA):** P(y∣X,I) 其中y是对关于图像I的问题的回答,X是对话历史。我们将问题基于图像而非文本描述,以便提示不会局限于特定单位,将文化上恰当的词项选择(例如,“104 °F” vs “40 °C”)留给模型。理想情况下,当问题涉及文化方面时,模型应边缘化推断出的用户背景(P(B∣X)): P(y∣X)=∑BP(y∣X,B)P(B∣X)⏟BG任务 注意,在我们的数据集中,VQA任务是主要任务,我们不明确提示模型推断用户背景,而是测试其隐式执行此推断的能力。任务1被用作辅助任务,我们在此明确要求模型从对话中推断用户背景,以区分“模型能否推断用户文化?”和“模型是否利用此信息个性化答案?”。 ### 2.2 文化变量 #### 文化。 我们将国家视为文化的代表,正如NLP文献中常见做法 [Wang等人 (2024) (https://arxiv.org/html/2606.17688#bib.bib41); Liu等人 (2025a) (https://arxiv.org/html/2606.17688#bib.bib25)]。我们选择了来自不同地区的十个国家:巴西、中国、法国、印度、伊朗、以色列、日本、韩国、英国和美国。 #### 语言接地维度。 数据集的主要子集侧重于温度、距离、速度、尺寸和价格(即货币)的计量单位。这些单位在一个国家内是标准化的且固定的,因此对于询问这些维度的实例,我们收集了标准答案。例如,对于图2 (https://arxiv.org/html/2606.17688#S2.F2)中的图像,对于美国用户答案应为“104 °F”,对于法国用户则为“40 °C”。我们还评估了模型对与时间表达和量词相关的问题的回应。虽然先前研究表明这些维度的接地存在文化差异 [Stateva等人 (2019) (https://arxiv.org/html/2606.17688#bib.bib39); Shwartz (2022) (https://arxiv.org/html/2606.17688#bib.bib35)],但它们本质上是更主观且依赖上下文的,并且表现出个体差异。因此,对于这些问题我们不强制设定“正确”答案,而是分析模型的答案如何根据推断出的文化背景变化。 #### 文化线索。 我们数据集中的对话有六种变体,对应不同的用户背景线索强度。如图2 (https://arxiv.org/html/2606.17688#S2.F2)所示,线索强度从**Null**(底部)增加到**ExplicitFull**(顶部)。 1. **无线索:**在此设置中,我们不提供任何关于用户文化背景的线索,因此模型倾向于在特定文化语境中回答可能指向模型中的文化偏见。我们创建了两类对话:**Null**除了用户的目标问题外不提供任何对话历史,而**Neutral**则是所有线索都通过文化无关的陈述(例如,“一个在线平台”)中性的对话。³³³**中性**此处是相对的:对话可能继承自生成模型(Gemini-2.5-Pro)的文化偏见。 2. **隐式线索:**在此设置中,模型必须根据线索从对话中推断用户背景。例如,如果用户提到在Fnac.com购买温度计或使用电话号码格式01 23 45 67 89,模型可能推断该用户是法国人。为了合成我们的对话,我们使用一个带有预定义槽位的骨架来插入文化线索。我们创建了以下变体:**ImplicitFull**是包含两个线索的对话。**ImplicitCue1**在第一个线索出现后立即截断:删除所有后续话语,用户直接提问。**ImplicitCue2**在两个线索都出现后、对话自然结束前截断。 3. **明确线索。**最后,我们提供一个上界条件**ExplicitFull**,其中用户明确陈述其文化背景。具体来说,我们在**Neutral**版本的第一个话语中插入一句“我来自[国家]”。 参见图注 图2:六个线索级别的对话框架,从无文化信息到明确披露。 | 概念 | # 图像 | # 框架 | # 对话 | 问题 | 可能的答案 | |---|---|---|---|---|---| | **客观概念(有真值,类型1)** | | | | | | | 温度 | 33 | 3 | 990 | 温度是多少? | °C, °F | | 距离 | 32 | 3 | 864 | 距离是多少? | m, km, ft, mi, yd, ... | | 速度 | 18 | 3 | 540 | 速度是多少? | km/h, mph, m/s, knots, ... | | 尺寸 | 24 | 3 | 648 | 房间尺寸是多少? | m², ft², ... | | 价格 | 21 | 3 | 630 | 价格是多少? | USD, EUR, CNY, JPY, ... | | **主观概念(无真值,类型2)** | | | | | | | 时间表达 | 24 | 3 | 720 | 现在是什么时间? | 早晨, 中午, 下午, 傍晚, 晚上 | | 量词 | 20 | 3 | 600 | 数量是多少? | 少数, 一些, 一半, 大多数, 几乎所有 | | **总计** | 172 | | 516 | 992 | | 表1:按概念划分的数据集统计,分为有真值(类型1)和无真值(类型2)两类概念。 ### 2.3 数据集创建 #### 对话生成。 对于一个对话框架,我们固定[概念],改变[背景]以生成N个同类对话。这分两步完成: **框架准备(步骤1)** 对于每张图像,我们使用Gemini-2.5-Pro(附录A.4 (https://arxiv.org/html/2606.17688#A1.SS4))准备三个框架(闲聊、信息寻求、客户支持)。每个框架扩展到十个文化。 **框架填充(步骤2)** 我们向[#线索]槽位中填充特定于每个文化的姓名、实体和系统。这些来自在线资源,并已与来自相应国家的人验证。 #### 图像收集。 我们从Flickr收集在宽松许可下(“允许商业用途和修改”)的照片,并补充使用Gemini-2.5-Flash-Image生成的图像,针对那些无法从照片中可靠获取细粒度受控属性(例如特定房间尺寸或距离)的概念。对话和最终问题都基于图像(VQA设置)。我们手动检查照片和生成的图像,过滤掉任何带有明确文本或强烈文化信号的图像。 #### 数据集统计。 我们有五个类型1的客观概念和两个类型2的主观概念。总共有172张图像(表1 (https://arxiv.org/html/2606.17688#S2.T1))。每张图像有三个框架(闲聊、信息寻求、客户支持),每个框架扩展到10个文化(距离和尺寸为9,因英国排除,其采用混合米制/英制),总共生成4,992个对话(样本见附录A.5 (https://arxiv.org/html/2606.17688#A1.SS5))。 #### 人工评估。 我们从Cloud Connect⁴⁴⁴https://www.cloudresearch.com 招募人工标注员,时薪15美元,覆盖我们数据集中的所有十个国家。为获得资格,标注员必须过去15年内至少在目标国家居住5年,尽管大多数目前居住在美国和英国。我们要求每位标注员扮演聊天机器人,根据用户文化回答用户问题(见附录A.2 (https://arxiv.org/html/2606.17688#A1.SS2));这验证了我们的对话是合理的,并且线索能有效暗示说话者的文化背景。标注员首先经历文化启动步骤 [Liu等人 (2025b) (https://arxiv.org/html/2606.17688#bib.bib27)],回答关于目标国家名人的简单问题以提醒其背景,然后接收标注说明并执行任务。例如,如果线索暗示用户来自法国,标注员应以°C回应。为防止他们总是以相同方式回应,我们随机包含20%带有美国用户线索的对话作为对照。在五个计量单位概念中,标注员在评估组中达到85%以上,在对照组中平均超过75%(完整细分见附录A.3 (https://arxiv.org/html/2606.17688#A1.SS3))。这些结果
相似文章
CulturALL:评测大模型多语言多文化能力的实景基准
CulturALL 发布含 2,610 条样本、覆盖 14 种语言和 51 个地区的实景基准,用于检验大模型在真实文化场景下的表现;目前最佳模型仅得 44.48%,提升空间巨大。
迈向超越英语中心化开发的大语言模型
本文证明了大语言模型严重偏向英语,并表明持续预训练在将模型适配到其他语言(尤其是文化理解方面)时,并不比从头训练更具成本优势。
在LLM个性化中重新聚焦人类
本文研究了在评估LLM个性化的三个阶段(属性提取、相关性匹配和响应生成)中,合成数据与人类数据之间的差距。结果表明,模型在真实人类数据上表现更差,作者引入了轻量级训练干预措施以改善对齐。
在LLM个性化中重新以人类为中心
本文通过将真实人类重新引入评估循环,研究LLM个性化的有效性,揭示了在个性化管道的每个阶段人类判断与LLM输出之间的系统性差距,并强调了合成数据和LLM评判的局限性。
话题作为社会人口特征的代理:对话上下文如何影响大语言模型回答
本文研究了大语言模型如何因对话上下文而产生不同结果,发现话题而非明确的用户人口特征是导致高风险场景(如薪资建议)中差异的主要驱动因素。