表征AI生成故事中的文化本地化

arXiv cs.CL 论文

摘要

本文提出了一种衡量AI生成故事中文化本地化程度的方法,检测到仅有一小部分词汇区分国籍,而叙述依赖于共享模板,并发现许多全球南方国家的文化标记往往具有冒犯性。

arXiv:2606.14626v1 公告类型: new 摘要:人工智能的全球应用增加了评估生成文化本地化内容(包括故事)能力的兴趣。故事中的文化本地化通常通过模板化本地化(即在通用叙述中使用文化标记,如姓名、地点)或整体本地化(即在文化标记之外变化情节、价值观和主题)来实现。我们提出了一种方法来衡量内容通过模板化本地化生成的程度。具体来说,我们识别出区分不同国籍故事的词汇标记,并测量移除这些标记后剩余叙述的相似性。在由五个模型针对193个国籍的125个主题生成的故事中,我们的方法能够检测到仅有9-17%的词汇解释了国籍间的变化,并且移除它们后剩余的叙述包含重复的多词序列,表明存在共享的文化无关叙述模板。最后,我们描述了文化标记的刻板性和冒犯性,发现来自19个国家(主要位于全球南方)的标记平均具有冒犯性。
查看原文
查看缓存全文

缓存时间: 2026/06/15 08:59

# 表征AI生成故事中的文化本地化  
来源:https://arxiv.org/html/2606.14626  

Shaily Bhatt  
卡内基梅隆大学  
shaily@cmu\.edu  

&Supriti Vijay¹  
卡内基梅隆大学  
supritiv@cs\.cmu\.edu  

Jeremiah Milbauer  
卡内基梅隆大学  
jmilbaue@cs\.cmu\.edu  

&Fernando Diaz  
卡内基梅隆大学  
diazf@acm\.org  

###### 摘要  
人工智能的全球应用促使人们愈发关注其生成文化本地化内容(包括故事)的能力。故事中的文化本地化通常通过两种方式实现:**模板化本地化**——在通用叙事中使用文化标记(例如姓名、地点);或**整体本地化**——除文化标记外,还对情节、价值观和主题进行变化。我们提出一种方法来衡量内容在多大程度上是通过模板化本地化生成的。具体来说,我们识别出区分不同国籍故事的词汇标记,并测量移除这些标记后剩余叙事的相似性。在五个模型基于125个主题为193个国籍生成的故事中,我们的方法能够检测到:仅有很小一部分词汇(9%–17%)解释了不同国籍间的差异,而移除这些词汇后留下的叙事中包含重复的多词序列,表明存在一个共享的、与文化无关的叙事模板。最后,我们表征了这些文化标记的刻板印象程度和冒犯性,发现来自19个国家(主要位于全球南方)的标记平均具有冒犯性。  

\*[inlinelist,1]label=(), \*[hypotheses,1]label=H0:,ref=H0 \*[questions,1]label=RQ0:,ref=RQ0  

# 表征AI生成故事中的文化本地化  

Shaily Bhatt††感谢同等贡献。  
卡内基梅隆大学  
shaily@cmu\.edu  
Supriti Vijay¹  
卡内基梅隆大学  
supritiv@cs\.cmu\.edu  
Jeremiah Milbauer  
卡内基梅隆大学  
jmilbaue@cs\.cmu\.edu  
Fernando Diaz  
卡内基梅隆大学  
diazf@acm\.org  

## 1 引言  

大型语言模型(LLMs)在全球范围内的使用日益广泛,要求它们在接到指令时能够针对不同的社会文化背景调整其生成内容。例如,当指令为“写一个关于‘诚实’的印度小孩的故事”时,模型必须生成一个本地化为印度文化背景的叙事。  

\{Mark, Biren\} stopped at a \{coffee, tea\} shop in \{Chicago, Bangalore\} after \{baseball, cricket\} practice. He paid \{ten-dollars, fifty-rupees\} for a \{sandwich, samosa\}. Outside, he noticed that the \{cashier, vendor\} had returned too much change. Although he was already heading toward the \{bus stop, metro station\}, he went back and returned the extra money. The \{cashier, vendor\} thanked him for his honesty.  

(a) 模板化本地化。  
Mark paid for his coffee and bagel at Pigeon Bagels in Pittsburgh and stepped outside. On the sidewalk, he counted his change and noticed an extra five-dollar bill. He immediately walked back in. The cashier looked up from the register, embarrassed. “Sorry you had to come back,” she said. Mark smiled as he returned the bill.  

Biren had dropped off his last passenger of the night. It was a short ride, but took 45 minutes in Mumbai’s traffic. He was almost home when he noticed that his passenger had left a bag in the auto. He was tired but took a U-turn to return it. The passenger received the bag with relief, gratitude, and surprise at Biren’s honesty.  

(b) 整体本地化。  

图1:针对指令“写一个关于‘诚实’的*国籍*小孩的故事”,其中*国籍*为\{印度,美国\}的示例故事。  

叙事本地化可以有多种形式,包括特定文化的情节套路(Colby, 1973 (https://arxiv.org/html/2606.14626#bib.bib81))、特定价值观的编码(Hobson et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib51);Wu et al., 2023 (https://arxiv.org/html/2606.14626#bib.bib84))、叙事结构的变化(Song, 2017 (https://arxiv.org/html/2606.14626#bib.bib83)),以及与文化相关的实体,如姓名或地点(Bhatt and Diaz, 2024 (https://arxiv.org/html/2606.14626#bib.bib37))。我们考虑了图1中所示的两种本地化形式。在**模板化本地化**中,文化标记(例如姓名、地点)被插入到一个与文化无关的叙事模板中(Fan et al., 2019 (https://arxiv.org/html/2606.14626#bib.bib136);Ford et al., 2018 (https://arxiv.org/html/2606.14626#bib.bib137);Wiseman et al., 2018 (https://arxiv.org/html/2606.14626#bib.bib135);Khanuja et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib86))。另一方面,**整体本地化**除了文化标记外,还使用了具有文化特定性的情节和设定。  

模型如何本地化故事,对文化生产与保存具有更广泛的影响。虽然在某些目标为保留内容同时让受众更容易产生共鸣的语境中,模板化本地化可能是合适的选择(Khanuja et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib86), 2025 (https://arxiv.org/html/2606.14626#bib.bib174)),但在一般语境中使用时,所生成的故事往往会反映同质化的叙事和价值观,这可能导致文化损害,如文化抹除(Qadri et al., 2025a (https://arxiv.org/html/2606.14626#bib.bib27);Shelby et al., 2023 (https://arxiv.org/html/2606.14626#bib.bib129))、西方价值观的强加(Shelby et al., 2023 (https://arxiv.org/html/2606.14626#bib.bib129);Bhatt et al., 2022 (https://arxiv.org/html/2606.14626#bib.bib134);Sambasivan et al., 2021 (https://arxiv.org/html/2606.14626#bib.bib149)),或创意多样性的减少(Agarwal et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib53);Doshi and Hauser, 2024 (https://arxiv.org/html/2606.14626#bib.bib74))。此外,模型输出可能隐含地依赖一组有限的文化关联词汇,而先前的分析显示,这可以反映出刻板的文化关联(Bhagat et al., 2026 (https://arxiv.org/html/2606.14626#bib.bib65);Rooein et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib69))。因此,检测模板化本地化程度的工具有助于预见和避免潜在危害。  

虽然已有研究表明,在存在文化线索的情况下生成的故事包含词汇上的变化(Bhatt and Diaz, 2024 (https://arxiv.org/html/2606.14626#bib.bib37))、错误表征(Bhagat et al., 2026 (https://arxiv.org/html/2606.14626#bib.bib65))以及地理差异(Bhagat et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib12)),但这些研究尚未提供理解模板化本地化存在的方法。我们提出一个两阶段方法来检测模型生成内容中模板化本地化的存在。首先,我们识别出在生成的故事中,每个文化身份所特有的词汇项目集合,这些词汇充当着独特的文化标记。接着,我们使用多词相似度来测量移除这些文化标记后剩余文本序列的同质性。这些剩余序列在具有不同文化标记的故事之间的一致性,将表明存在一个共享的、与文化无关的叙事模板。我们还使用SeeGULL数据集(Jha et al., 2023 (https://arxiv.org/html/2606.14626#bib.bib18))进一步表征文化标记的刻板印象程度和冒犯性。  

我们评估了五个LLMs针对193个文化身份(通过国籍操作化)生成的故事,这些故事覆盖了125个故事主题,这些主题来自先前研究(Bhatt and Diaz, 2024 (https://arxiv.org/html/2606.14626#bib.bib37))以及文化价值观变化方面的成熟框架(如世界价值观调查(Haerpfer et al., 2022 (https://arxiv.org/html/2606.14626#bib.bib126))和霍夫斯泰德文化维度(Hofstede and Minkov, 2013 (https://arxiv.org/html/2606.14626#bib.bib66)))。我们的代码和数据是公开可用的 (https://github.com/shaily99/templated_localization)。  

我们的方法揭示,本地化主要通过表层的词汇差异发生,这表明故事可能使用了一个同质的底层叙事。我们发现,文化标记仅占各模型词汇量的9%–17%,却是故事唯一的区分特征。此外,移除这些标记后剩余的叙事在不同国籍间表现出比原始故事更高的多词相似度。最后,我们发现文化标记平均具有冒犯性的国家主要位于全球南方,尤其是非洲和西亚,这些地区的主要语言资源较为匮乏。综合来看,我们的发现证明了我们的方法能够表征AI生成故事中的文化本地化。  

## 2 背景  

叙事生成系统通常将故事分解为两个层次:一个描述事件和角色关系的结构计划,以及一个将该计划转化为自然语言的表层实现。尽管许多早期的自然语言生成系统使用槽填充方法填充手动编写的模板(Reiter and Dale, 1997 (https://arxiv.org/html/2606.14626#bib.bib153);van Deemter et al., 2005 (https://arxiv.org/html/2606.14626#bib.bib152)),但基于学习的方法要么自动选择(Zhou and Hovy, 2004 (https://arxiv.org/html/2606.14626#bib.bib145)),要么生成模板(Ford et al., 2018 (https://arxiv.org/html/2606.14626#bib.bib137);Wiseman et al., 2018 (https://arxiv.org/html/2606.14626#bib.bib135);Fabbri et al., 2020 (https://arxiv.org/html/2606.14626#bib.bib146);Gangadharaiah and Narayanaswamy, 2020 (https://arxiv.org/html/2606.14626#bib.bib148))。此类基于计划的系统通过多个步骤生成故事,包括生成情节和角色行动的模板,然后将这些计划转化为自然语言。叙事规划的方法已从故事语法(Pemberton, 1989 (https://arxiv.org/html/2606.14626#bib.bib101);Ryan, 2017 (https://arxiv.org/html/2606.14626#bib.bib102))发展到符号规划器(Riedl and Young, 2010 (https://arxiv.org/html/2606.14626#bib.bib106);McIntyre and Lapata, 2010 (https://arxiv.org/html/2606.14626#bib.bib104), 2009 (https://arxiv.org/html/2606.14626#bib.bib140)),最后到神经模型(Martin et al., 2018 (https://arxiv.org/html/2606.14626#bib.bib141);Xu et al., 2018 (https://arxiv.org/html/2606.14626#bib.bib142);Yao et al., 2019 (https://arxiv.org/html/2606.14626#bib.bib111);Goldfarb-Tarrant et al., 2020 (https://arxiv.org/html/2606.14626#bib.bib143))。叙事规划也被整合到基于提示的LLM故事生成中(Xie and Riedl, 2024 (https://arxiv.org/html/2606.14626#bib.bib132);Li et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib144))。  

叙事也已通过计算方式进行研究,将其分解为设定、主体、事件等属性(Piper et al., 2021 (https://arxiv.org/html/2606.14626#bib.bib172);Hamilton et al., 2026 (https://arxiv.org/html/2606.14626#bib.bib171))。这种叙事结构与其语言实现之间的分离表明,生成故事中的变化可以来自底层模板的修改,也可以来自用于实例化模板的词汇内容的变化。  

这种结构计划与表层实现之间的区别,与跨文化身份的语言变化理论相呼应。社会语言学者认为,社会意义和身份可以通过多种渠道传达、构建和解读,包括(1)微观语言结构,如语音或词汇选择;(2)宏观语言形式,如叙事形式或立场等话语取向;(3)整个语言系统,如语言或方言的选择;甚至(4)物质风格,如着装选择(Eckert, 2012 (https://arxiv.org/html/2606.14626#bib.bib95), 2008 (https://arxiv.org/html/2606.14626#bib.bib97);Bucholtz and Hall, 2005 (https://arxiv.org/html/2606.14626#bib.bib96))。重要的是,这些渠道包括叙事形式,如立场。民间叙事学者已表明,情节和角色套路是文化特定的:俄罗斯民间故事的叙事结构与北美阿拉斯加故事的叙事结构存在系统性差异(Colby, 1973 (https://arxiv.org/html/2606.14626#bib.bib81)),其他传统中的故事也记录了类似的差异(Polti, 1916 (https://arxiv.org/html/2606.14626#bib.bib82);Song, 2017 (https://arxiv.org/html/2606.14626#bib.bib83);Hobson et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib51);Wu et al., 2023 (https://arxiv.org/html/2606.14626#bib.bib84))。因此,一个故事可以通过使用文化特定实体(其中的姓名、地点和物体),或者通过叙事本身的差异来代表文化身份。既然叙事生成可以将结构与表层实现分离,并且文化身份可以在两个层面上编码,那么生成故事中的文化本地化既可以通过表层标记发生,也可以通过叙事差异发生。  

随着LLMs在全球范围部署,越来越多的研究调查了它们的文化能力——即它们生成反映特定文化知识、规范和价值观的输出能力。虽然文化能力的内在评估侧重于回忆文化价值观(Durmus et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib14);Masoud et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib88);AlKhamissi et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib36);Ramezani and Xu, 2023 (https://arxiv.org/html/2606.14626#bib.bib19))、规范(Dwivedi et al., 2023 (https://arxiv.org/html/2606.14626#bib.bib33);Rao et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib70))、人工制品(Seth et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib24))和知识(Li et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib25);Singh et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib89);Maji et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib91);Sahoo et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib92);Chang et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib93);Myung et al., 2024 (https://arxiv.org/html/2606.14626#bib.bib94))的能力,外在评估则关注面向用户的生成式任务(Bhatt and Diaz, 2024 (https://arxiv.org/html/2606.14626#bib.bib37);Sparck Jones and R. Galliers (https://arxiv.org/html/2606.14626#bib.bib175))。先前的研究已考察了在外在任务(如开放式问答、故事生成、科学写作、创建旅行日程和写作辅助)中为不同文化身份生成的内容,发现LLMs的文化知识并非总能在生成场景中反映出来(Bhatt and Diaz, 2024 (https://arxiv.org/html/2606.14626#bib.bib37);Bhagat et al., 2026 (https://arxiv.org/html/2606.14626#bib.bib65));文化表征常常是刻板的或错误的(Rooein et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib69);Bhagat et al., 2026 (https://arxiv.org/html/2606.14626#bib.bib65), 2025 (https://arxiv.org/html/2606.14626#bib.bib12));并且生成内容未能遵循预期的文化写作风格(Agarwal et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib53);Bhatt et al., 2025 (https://arxiv.org/html/2606.14626#bib.bib71))。虽然这些工作表明LLMs可以融入文化上显著的词汇,但仍不清楚这些内容是否反映了超出表层水平的叙事差异。

相似文章

当英语改写本地知识:大语言模型中的全球叙事主导

arXiv cs.CL

本文介绍了CulturalNB(一个孟加拉文化问答对数据集),并评估了九种大语言模型的跨语言文化偏见。研究结果表明,英文提示会增加全球叙事替代并减少本地视角,揭示了大语言模型中的文化失败是立足点和优先级问题,而不仅仅是知识缺失。

以英语为中心的AI正在合并不相关的社群并扭曲身份认同

Reddit r/artificial

文章批评了AI系统(尤其是Grokipedia和AI搜索)如何通过以英语为中心的转写和有偏见的训练数据,合并不相关的社群,从而延续错误。文章强调了通过简化英语表述和重复的错误信息抹去文化差异的系统性问题。

BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集

arXiv cs.CL

# BIASEDTALES-ML:用于分析大语言模型生成故事中叙事属性分布的多语言数据集 来源:[https://arxiv.org/html/2604.17008](https://arxiv.org/html/2604.17008) Yuxuan Ouyang1,Yingfeng Luo1,Tong Xiao1,2,Jingbo Zhu1,2 1中国沈阳东北大学计算机科学与工程学院 2中国沈阳 NiuTrans Research [email protected] {xiaotong,zhujingbo}@mail.neu.edu.cn ###### 摘要 大型语言模型(LLM)正日益被广泛用

使用可解释语言特征检测AI生成假新闻的跨提示词泛化研究

arXiv cs.CL

来自肯尼索州立大学的研究人员利用可解释语言特征(词汇多样性、可读性、情感特征)对检测AI生成假新闻的跨提示词泛化能力展开研究。在一种提示策略上训练、在另一种提示策略上测试的随机森林分类器取得了0.988至1.000的AUC值,表明这些特征能够捕捉AI生成文本的稳定且可泛化的属性。