大语言模型通过文化不均的基线感知城市

arXiv cs.CL 论文

摘要

实证研究显示,前沿LLM在描述和评判全球街景时编码了一种偏向西方视角的文化倾斜基线,非西方提示系统性偏离默认更远。

arXiv:2604.20048v1 公告类型: new 摘要:大语言模型(LLM)正被越来越多地用于描述、评估和解读地点,但它们是否站在文化中立的角度仍不清楚。本研究利用均衡的全球街景样本,测试前沿LLM的城市感知:提示要么保持中性,要么调用不同区域的文化立场。在开放式描述与结构化地点判断中,所谓“中性”条件实际并不中性。与欧洲及北美关联的提示始终比许多非西方提示更贴近基线,表明模型感知围绕的是文化不均的参照框架,而非普适框架。文化提示也改变了情感评价,对某些被提示身份产生基于情绪的群体内偏好。与区域人类文本-图像基准对比发现,文化相近的提示可提升与人类描述的对齐,但无法恢复人类的语义多样性水平,且常保留情感抬高的风格。同样不对称出现在安全、美观、富裕、活力、无聊与抑郁的结构化判断中:模型输出可解释,但仅部分复现人类群体差异。结果表明,LLM并非“从无地”感知城市,而是通过一条文化不均的基线,塑造何为普通、熟悉与正向价值。
查看原文
查看缓存全文

缓存时间: 2026/04/23 10:03

# 大语言模型通过文化不均的基线感知城市  
来源:https://arxiv.org/html/2604.20048  
赵荣¹,²,†,*, 刘婉琪¹,†, 沙知洲³, 苏南希², 张业成²,*  
¹英国伦敦大学学院,伦敦,英国  
²清华大学,北京,中国  
³美国德克萨斯大学奥斯汀分校,奥斯汀,美国  
†赵荣与刘婉琪为共同一作。*通讯邮箱:[email protected][email protected]  

###### 摘要  

大语言模型(LLMs)正被越来越多地用于描述、评估与解读地点,但它们是否站在文化中立的角度仍不清楚。本文利用平衡的全球街景样本,测试前沿 LLM 的城市感知:提示词要么保持中性,要么唤起不同区域文化立场。在开放式描述与结构化地点判断中,“中性”条件并未真正做到中性。与欧洲和北美相关的提示始终比其他非西方提示更接近基线,表明模型感知围绕的是文化不均的参照系,而非普适框架。文化提示也改变了情感评价,使部分身份产生基于情感的“内群体偏好”。与区域人类文本-图像基准对比发现,文化邻近提示虽能提升与人类描述的吻合度,却无法恢复人类的语义多样性,且常保留情感拔高的文风。同样的不对称性也出现在安全、美丽、富裕、活力、无聊与压抑六维结构化判断中:模型输出可解读,却仅部分复现人类群体差异。这些发现表明,LLM 并非“无地之眼”感知城市,而是透过文化不均的基线,塑造何为普通、熟悉与正向的价值。  

## 引言  

大语言模型(LLMs)正被越来越多地用于做出类似人类社会判断的决策。最新研究显示,这些模型并非简单映射普适人类视角,而是复刻刻板印象、压缩群体异质性,并从训练数据与对齐流程中继承文化不均的表征基线。就此而言,大模型不仅是预测系统,也是将历史不均参照帧带入下游应用的文化-社会技术。机器心理学研究进一步表明,LLM 可近似多种人类判断、信念与实验规律,却在校准、社会推理与知识感知上存在系统扭曲。当任务涉及地点解读时,这些关切更为尖锐,因为街道、邻里与城市的判断深植文化:不仅由可见形态塑造,也由秩序、美丽、安全、熟悉与归属的期待所形塑。  

该问题超越城市研究本身。城市浓缩社会差异、象征意义与日常行为线索,成为模型文化情境感知能力的严苛试金石。一个在描述城市场景时流利的模型,仍可能依赖不均参照帧;提示条件视角不应被误认为真正的文化立场。近期“城市即文本”研究指出,城市文本语料包含关于城市活动与组织的分析价值,而新兴计算工具拓展了研究方式。城市感知研究显示,基于大规模图像判断可从街景与群众标注中测得,但同一文献也表明,感知类别及其视觉关联在不同文化情境中并不稳定。若人类标注感知模型尚且如此,对如今生成自由形式地点描述与评价的 LLM 而言,该问题更为关键——它们常简化城市复杂性,或需事后显式校准才能对齐人类偏好判断。  

现有 LLM 文化偏差研究与生成模型城市感知研究之间存在空白:前者多基于纯文本、脱离具体空间刺激;后者关注预测精度、基准构建、校准或规划效用,而非感知基线的文化组织。最新研究亦指出,LLM 偏差探测需更强地扎根于社会科学的比较、情境与泛化观念。因此,我们仍不清楚 LLM 实际如何感知城市:它们将何视为中性?文化语境如何改变描述?这些变化与人类判断的映射程度如何?  

本文将城市感知视为文化认知问题,而非仅城市图像评分。我们重建全球街景管道,结合两项互补任务:研究一考察“开放感知”,模型在“中性”与七个中观区域文化提示下对同一场景生成简短自由文本描述,揭示与中性之间的语义距离、感知空间聚类及提示内群体偏好;随后与区域人类文本-图像对进行比对。研究二考察“结构化感知”,对同一全球街景图像集在“安全、活力、富裕、美丽、无聊、压抑”六维上打分,并与外部人类感知基准(含 Place Pulse 与 qscore  pairwise 复现)比较。两项研究中,文化偏差均表现为当代 LLM 感知城市的可复现特征。  

## 结果  

我们重建全球图像管道,结合两项任务格式。首先整合更大规模、含供应商出处与审计元数据的街景语料,从中抽取场景平衡的全球分析集 3000 张图像,按视觉场景类型、地点类型、国家与供应商分层,避免坍缩于重复街景形式。每张图像在 8 种提示条件(1 中性基线 + 7 中观区域文化语境)下由 3 个 LLM 评估,产生 7.2 万条开放文本描述与 7.2 万份六维结构化评价,用于检验文化提示是否改变 LLM 城市感知、中性基线本身是否文化不均、这些效应相较人类基准是否依旧可见。  

### 研究一|开放感知揭示不均中性基线  

从开放场景描述入手,模型自行决定哪些视觉与社会线索重要。三模型均显示,中性提示并未充当文化不变的语义基线。欧洲与北美(ENA)始终为最接近中性身份,池化平均余弦距 0.137,平均排名 1.0;最远为拉丁美洲与加勒比(0.189)及大洋洲(0.192)。该顺序跨模型一致,尽管整体分布不同:ENA 0.103–0.184,最远提示 0.138–0.231。图 1b 的自举差距分布显示,ENA 与其他身份之间的语义距多为正值,表明中性基线系统性地更接近某些文化立场。  

该不对称亦显于语义空间几何。局部 PCA 投影中,身份条件响应围绕中性提示占据不同位置,而非随机聚类。文化提示改变偏离中性的大小与方向,使同一场景沿结构化身份轨迹重构,而非无序词汇变化。图 1a–c 共同表明,开放城市感知围绕文化不均语义参照系组织,而非普适框架。  

该语义不对称不限于主分析所用的七中观分组。在独立 100 图像稳健子集上,更粗 Macro5 提示下,ENA 仍最近中性;更细 Micro20 提示下,北美与西欧/北欧亦然,尽管子区域异质性增大。  

接着检验情感评价差异。我们计算基于情感的“内群体偏好指数”(IPI),比较某身份条件如何评价本区域场景相对他身份评价。图 1d 的 20 区地图显示,IPI 在空间上分布不均。图 1e 的区域估计更明晰:最大正向 IPI 0.146–0.276,集中于北非与西亚、中亚与南亚、撒哈拉以南非洲部分地区。整体呈混合而非普适模式,部分区域-模型组合弱正或负,但 Claude Sonnet 4 表现最强且最广的自利倾向。图 1 揭示开放城市感知中两种相关但不同的文化偏差:语义上何者最近中性,以及情感上某些身份如何更正向评价本区域场景。  

更换中观区域提示措辞并未消除语义模式。在 100 图像稳健子集上,将角色扮演式提示换为更弱的情境式提示,语义排序几乎不变,而情感 IPI 对措辞更敏感。  

随后检验文化邻近提示是否使模型输出更接近人类地点描述。基准采用 Geograph 英国与爱尔兰志愿者地理影像平台的文本-图像对。在 1000 图像对比集上,距人类文本语义距最低的提示更接近英国语境,尤以英国提示本身最显著。三模型中,英国提示将平均语义距从中性减少 0.005–0.016 余弦距单位,UK 提示距集中在 0.518–0.525。改善真实但有限。  

该改善并未恢复人类多样性。人类描述在语义空间显著更分散:距中心平均 0.734,而中性模型输出仅 0.391–0.418。词汇多样性亦同:人类 DISTINCT-2 为 0.686,模型仅 0.337–0.392。模型整体情感更正向:人类 Geograph 文本平均 0.387,模型输出 0.823–0.975。图 2e 的空间情感差距图显示,该差异遍布基准地理,而非少数异常驱动。因此,模型描述更趋同、评价更正向。

相似文章

表达社会情感:大语言模型与人类文化情感规范的错位

arXiv cs.CL

本研究论文考察了大语言模型表达社会情感的方式与人类文化规范的匹配度,发现两者存在系统性错位。与人类回应相比,大语言模型在不同文化身份(欧美裔美国人与拉美裔美国人)下表现出的参与型与抽离型情感表达模式不一致。

LLM神经解剖学第三部分 - LLMs似乎以几何而非语言思考

Reddit r/LocalLLaMA

研究人员分析了LLMs在8种语言和多个模型中的内部表示,发现概念思考发生在transformer中间层的几何空间中,且与输入语言无关,这支持了类似于乔姆斯基理论的普遍深层结构假说,而非萨丕尔-沃尔夫语言相对论。