大语言模型通过文化不均的基线感知城市

arXiv cs.CL 2026/04/23 04:00 论文

摘要

实证研究显示，前沿LLM在描述和评判全球街景时编码了一种偏向西方视角的文化倾斜基线，非西方提示系统性偏离默认更远。

arXiv:2604.20048v1 公告类型: new 摘要：大语言模型（LLM）正被越来越多地用于描述、评估和解读地点，但它们是否站在文化中立的角度仍不清楚。本研究利用均衡的全球街景样本，测试前沿LLM的城市感知：提示要么保持中性，要么调用不同区域的文化立场。在开放式描述与结构化地点判断中，所谓“中性”条件实际并不中性。与欧洲及北美关联的提示始终比许多非西方提示更贴近基线，表明模型感知围绕的是文化不均的参照框架，而非普适框架。文化提示也改变了情感评价，对某些被提示身份产生基于情绪的群体内偏好。与区域人类文本-图像基准对比发现，文化相近的提示可提升与人类描述的对齐，但无法恢复人类的语义多样性水平，且常保留情感抬高的风格。同样不对称出现在安全、美观、富裕、活力、无聊与抑郁的结构化判断中：模型输出可解释，但仅部分复现人类群体差异。结果表明，LLM并非“从无地”感知城市，而是通过一条文化不均的基线，塑造何为普通、熟悉与正向价值。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:03

# 大语言模型通过文化不均的基线感知城市  
来源：https://arxiv.org/html/2604.20048  
赵荣¹,²,†,*, 刘婉琪¹,†, 沙知洲³, 苏南希², 张业成²,*  
¹英国伦敦大学学院，伦敦，英国  
²清华大学，北京，中国  
³美国德克萨斯大学奥斯汀分校，奥斯汀，美国  
†赵荣与刘婉琪为共同一作。*通讯邮箱：[email protected]；[email protected]  

###### 摘要  

大语言模型（LLMs）正被越来越多地用于描述、评估与解读地点，但它们是否站在文化中立的角度仍不清楚。本文利用平衡的全球街景样本，测试前沿 LLM 的城市感知：提示词要么保持中性，要么唤起不同区域文化立场。在开放式描述与结构化地点判断中，“中性”条件并未真正做到中性。与欧洲和北美相关的提示始终比其他非西方提示更接近基线，表明模型感知围绕的是文化不均的参照系，而非普适框架。文化提示也改变了情感评价，使部分身份产生基于情感的“内群体偏好”。与区域人类文本-图像基准对比发现，文化邻近提示虽能提升与人类描述的吻合度，却无法恢复人类的语义多样性，且常保留情感拔高的文风。同样的不对称性也出现在安全、美丽、富裕、活力、无聊与压抑六维结构化判断中：模型输出可解读，却仅部分复现人类群体差异。这些发现表明，LLM 并非“无地之眼”感知城市，而是透过文化不均的基线，塑造何为普通、熟悉与正向的价值。  

## 引言  

大语言模型（LLMs）正被越来越多地用于做出类似人类社会判断的决策。最新研究显示，这些模型并非简单映射普适人类视角，而是复刻刻板印象、压缩群体异质性，并从训练数据与对齐流程中继承文化不均的表征基线。就此而言，大模型不仅是预测系统，也是将历史不均参照帧带入下游应用的文化-社会技术。机器心理学研究进一步表明，LLM 可近似多种人类判断、信念与实验规律，却在校准、社会推理与知识感知上存在系统扭曲。当任务涉及地点解读时，这些关切更为尖锐，因为街道、邻里与城市的判断深植文化：不仅由可见形态塑造，也由秩序、美丽、安全、熟悉与归属的期待所形塑。  

该问题超越城市研究本身。城市浓缩社会差异、象征意义与日常行为线索，成为模型文化情境感知能力的严苛试金石。一个在描述城市场景时流利的模型，仍可能依赖不均参照帧；提示条件视角不应被误认为真正的文化立场。近期“城市即文本”研究指出，城市文本语料包含关于城市活动与组织的分析价值，而新兴计算工具拓展了研究方式。城市感知研究显示，基于大规模图像判断可从街景与群众标注中测得，但同一文献也表明，感知类别及其视觉关联在不同文化情境中并不稳定。若人类标注感知模型尚且如此，对如今生成自由形式地点描述与评价的 LLM 而言，该问题更为关键——它们常简化城市复杂性，或需事后显式校准才能对齐人类偏好判断。  

现有 LLM 文化偏差研究与生成模型城市感知研究之间存在空白：前者多基于纯文本、脱离具体空间刺激；后者关注预测精度、基准构建、校准或规划效用，而非感知基线的文化组织。最新研究亦指出，LLM 偏差探测需更强地扎根于社会科学的比较、情境与泛化观念。因此，我们仍不清楚 LLM 实际如何感知城市：它们将何视为中性？文化语境如何改变描述？这些变化与人类判断的映射程度如何？  

本文将城市感知视为文化认知问题，而非仅城市图像评分。我们重建全球街景管道，结合两项互补任务：研究一考察“开放感知”，模型在“中性”与七个中观区域文化提示下对同一场景生成简短自由文本描述，揭示与中性之间的语义距离、感知空间聚类及提示内群体偏好；随后与区域人类文本-图像对进行比对。研究二考察“结构化感知”，对同一全球街景图像集在“安全、活力、富裕、美丽、无聊、压抑”六维上打分，并与外部人类感知基准（含 Place Pulse 与 qscore  pairwise 复现）比较。两项研究中，文化偏差均表现为当代 LLM 感知城市的可复现特征。  

## 结果  

我们重建全球图像管道，结合两项任务格式。首先整合更大规模、含供应商出处与审计元数据的街景语料，从中抽取场景平衡的全球分析集 3000 张图像，按视觉场景类型、地点类型、国家与供应商分层，避免坍缩于重复街景形式。每张图像在 8 种提示条件（1 中性基线 + 7 中观区域文化语境）下由 3 个 LLM 评估，产生 7.2 万条开放文本描述与 7.2 万份六维结构化评价，用于检验文化提示是否改变 LLM 城市感知、中性基线本身是否文化不均、这些效应相较人类基准是否依旧可见。  

### 研究一｜开放感知揭示不均中性基线  

从开放场景描述入手，模型自行决定哪些视觉与社会线索重要。三模型均显示，中性提示并未充当文化不变的语义基线。欧洲与北美（ENA）始终为最接近中性身份，池化平均余弦距 0.137，平均排名 1.0；最远为拉丁美洲与加勒比（0.189）及大洋洲（0.192）。该顺序跨模型一致，尽管整体分布不同：ENA 0.103–0.184，最远提示 0.138–0.231。图 1b 的自举差距分布显示，ENA 与其他身份之间的语义距多为正值，表明中性基线系统性地更接近某些文化立场。  

该不对称亦显于语义空间几何。局部 PCA 投影中，身份条件响应围绕中性提示占据不同位置，而非随机聚类。文化提示改变偏离中性的大小与方向，使同一场景沿结构化身份轨迹重构，而非无序词汇变化。图 1a–c 共同表明，开放城市感知围绕文化不均语义参照系组织，而非普适框架。  

该语义不对称不限于主分析所用的七中观分组。在独立 100 图像稳健子集上，更粗 Macro5 提示下，ENA 仍最近中性；更细 Micro20 提示下，北美与西欧/北欧亦然，尽管子区域异质性增大。  

接着检验情感评价差异。我们计算基于情感的“内群体偏好指数”（IPI），比较某身份条件如何评价本区域场景相对他身份评价。图 1d 的 20 区地图显示，IPI 在空间上分布不均。图 1e 的区域估计更明晰：最大正向 IPI 0.146–0.276，集中于北非与西亚、中亚与南亚、撒哈拉以南非洲部分地区。整体呈混合而非普适模式，部分区域-模型组合弱正或负，但 Claude Sonnet 4 表现最强且最广的自利倾向。图 1 揭示开放城市感知中两种相关但不同的文化偏差：语义上何者最近中性，以及情感上某些身份如何更正向评价本区域场景。  

更换中观区域提示措辞并未消除语义模式。在 100 图像稳健子集上，将角色扮演式提示换为更弱的情境式提示，语义排序几乎不变，而情感 IPI 对措辞更敏感。  

随后检验文化邻近提示是否使模型输出更接近人类地点描述。基准采用 Geograph 英国与爱尔兰志愿者地理影像平台的文本-图像对。在 1000 图像对比集上，距人类文本语义距最低的提示更接近英国语境，尤以英国提示本身最显著。三模型中，英国提示将平均语义距从中性减少 0.005–0.016 余弦距单位，UK 提示距集中在 0.518–0.525。改善真实但有限。  

该改善并未恢复人类多样性。人类描述在语义空间显著更分散：距中心平均 0.734，而中性模型输出仅 0.391–0.418。词汇多样性亦同：人类 DISTINCT-2 为 0.686，模型仅 0.337–0.392。模型整体情感更正向：人类 Geograph 文本平均 0.387，模型输出 0.823–0.975。图 2e 的空间情感差距图显示，该差异遍布基准地理，而非少数异常驱动。因此，模型描述更趋同、评价更正向。

大语言模型通过文化不均的基线感知城市

相似文章

当英语改写本地知识：大语言模型中的全球叙事主导

迈向超越英语中心化开发的大语言模型

将LLM性别偏见锚定于人类基线：一项跨语言审计

大型语言模型中地理条件作用的意外影响

利用大型语言模型生成合成消费者洞察

提交意见反馈