拟人化语言如何影响公众对人工智能的认知
摘要
本文提出了一项研究,考察AI讨论中拟人化语言对公众看法的影响,发现虽然整体观点可能发生变化,但在受控环境下,拟人化框架的具体影响较为有限。
arXiv:2606.29121v1 公告类型:新发布
摘要:关于人工智能(AI)的公共讨论常常使用拟人化语言:即赋予系统人类能力和特征的语言。这种做法被批评为设定误导性期望、夸大主张并助长AI炒作,这可能扭曲公众对AI的理解并影响政策优先级。我们通过比较参与者(N=815)在阅读带有和不带有拟人化语言的段落时的感知变化,来研究拟人化框架的影响。这些段落设计为反映真实的面向公众的AI讨论。我们进一步考察了这些影响是否在两种不同类型的AI技术——大型语言模型和推荐系统——之间存在差异,并测量了当前公共讨论中突出的多个维度上对AI感知的变化。在另一个使用明确讨论AI危险文本的单独条件中,我们表明个人的AI观点可以因阅读文本而转变;然而,在实验的主要条件中,我们比较了拟人化和非拟人化描述,发现文本是否使用拟人化语言并不会显著影响参与者对AI的感知。我们的结果表明,对AI公众舆论的任何直接影响都是有限的,尽管不排除在自然环境中或通过逐渐、持续的接触,拟人化语言可能产生影响的可能性。
查看缓存全文
缓存时间: 2026/06/30 05:30
# 拟人化语言如何影响公众对人工智能的认知 来源: https://arxiv.org/html/2606.29121 **Betty Li Hou** 纽约大学 & **Sophie Hao** 波士顿大学 & **Sunoo Park** 纽约大学 & **Tal Linzen** 纽约大学 通讯邮箱: betty\.li\.hou@nyu\.edu. 作者贡献:BLH负责项目主导,开展实验与分析;SH和SP协助研究材料制作;TL、SH和SP协助项目框架构建、分析及实验建议;BLH撰写论文,SP、TL和SH协助修改;SP和TL为项目负责人。 ###### 摘要 关于人工智能(AI)的公共话语中常使用拟人化语言:即将人类的能力和特征赋予系统的语言。这种表述因设定误导预期、夸大主张并助长AI炒作而受到批评,可能扭曲公众对AI的理解并影响政策重点。我们通过比较参与者(N=815)在阅读带有和不带拟人化语言的段落时的认知变化,研究拟人化框架的影响。这些段落旨在反映现实中的面向公众的AI话语。我们进一步考察这些影响是否因两种AI技术类型(大型语言模型和推荐系统)而异,并测量当前公共话语中多个突出维度上参与者对AI认知的变化。在另一个实验条件中,使用明确讨论AI危险性的文本,我们证明个体的AI观点可能因阅读文本而发生变化;然而在本实验的主要条件中(比较拟人化和非拟人化描述),我们发现文本是否使用拟人化语言对参与者对AI的认知没有显著影响。我们的结果表明,拟人化语言对公众对AI的即时影响是适度的,尽管不能排除在自然环境中或通过渐进、持续接触可能产生效果的可能性。 ## 1 引言 近年来,关于AI的公共话语迅速扩展,特别是在通用型聊天机器人(如ChatGPT、Claude和Gemini)兴起之后[46 (https://arxiv.org/html/2606.29121#bib.bib50),54 (https://arxiv.org/html/2606.29121#bib.bib11),32 (https://arxiv.org/html/2606.29121#bib.bib17),2 (https://arxiv.org/html/2606.29121#bib.bib14),6 (https://arxiv.org/html/2606.29121#bib.bib15),51 (https://arxiv.org/html/2606.29121#bib.bib16)]。话语在塑造个人和社会观点、潜在假设、采纳与参与模式以及机构层面决策中扮演核心角色[56 (https://arxiv.org/html/2606.29121#bib.bib23),8 (https://arxiv.org/html/2606.29121#bib.bib22),48 (https://arxiv.org/html/2606.29121#bib.bib24)]。随着关于AI安全、劳动力替代和日益强大系统治理的辩论愈加突出,理解语言使用如何塑造对AI的认知变得日益重要,从而使公共话语基于对系统能力和风险的校准评估,而非误导性或夸大的框架。 AI话语中一个反复出现的特征是用词拟人化:将人类能力和特征归于非人类实体的语言[29 (https://arxiv.org/html/2606.29121#bib.bib1)]。人类有长期以来将技术拟人化并与之进行社交互动的历史,从计算机到在线角色再到机器人,先前的研究已对这些互动的潜在影响提出担忧[30 (https://arxiv.org/html/2606.29121#bib.bib25),38 (https://arxiv.org/html/2606.29121#bib.bib26),20 (https://arxiv.org/html/2606.29121#bib.bib27)]。在AI语境中,拟人化语言因影响人们对系统的认知、部署和信任而受到批评[29 (https://arxiv.org/html/2606.29121#bib.bib1),22 (https://arxiv.org/html/2606.29121#bib.bib37),49 (https://arxiv.org/html/2606.29121#bib.bib55)]。批评者认为,这种语言可能鼓励人们将这些系统投射错误的假设。例如,术语“幻觉”用于描述模型将错误事实信息呈现为真实的情况,可能暗示该模型有体验和感知能力[9 (https://arxiv.org/html/2606.29121#bib.bib36)]。这样的语言可能导致对AI系统能力的过度估计或误解[43 (https://arxiv.org/html/2606.29121#bib.bib53)],助长对失业的恐惧或影响将工具部署于关键任务(如警察使用面部识别)的决策[42 (https://arxiv.org/html/2606.29121#bib.bib9),27 (https://arxiv.org/html/2606.29121#bib.bib30)]。还有人认为,拟人化可能导致因过度依赖和信任AI系统而产生高风险场景,尤其是在弱势群体(如幼儿、老年人以及患病或残疾人群)中[1 (https://arxiv.org/html/2606.29121#bib.bib28)]。这些担忧引发更广泛的问题:拟人化是否反映了科学沟通和参与失败的后果[34 (https://arxiv.org/html/2606.29121#bib.bib54)],这种失败具有显著的伦理后果,模糊了道德和本体论边界[47 (https://arxiv.org/html/2606.29121#bib.bib6)]。反对拟人化语言的论点通常是经验性的而非哲学性的:它们的前提是,人类实际上会根据AI系统是否用拟人化术语描述而对其产生不同的认知。本文的目标就是检验这一经验性担忧。 我们通过让参与者接触受控的AI话语(包含不同程度拟人化的书面材料),研究AI的拟人化描述是否塑造个体的认知。我们聚焦于两种AI系统——大型语言模型(LLMs)和推荐系统——并分别测量拟人化框架对两者的共同影响、各自影响,然后比较这些影响在不同技术间的差异。这两种类型在当前技术话语中被广泛讨论,且常使用拟人化语言描述。通过比较它们,我们可以检验拟人化框架在不同AI技术中是否以不同方式运作。我们评估了现代AI话语中突出的问题上的观点变化:谁应对AI使用相关损害负责、AI是否会取代人类工作、人类是否可能失去对AI的控制、AI系统能否进行严格的安全测试、以及AI对社会的总体影响是正面还是负面。最后,为了确定AI的认知是否能在单次实验过程中发生变化,我们还设置了一个条件,让参与者阅读一段警告AI危险的文本。我们使用贝叶斯因子分析来量化支持“拟人化语言在阅读后立即对认知产生显著影响”的假设,以及支持“没有显著影响”的假设。我们发现支持后者,即拟人化语言对上述问题上的即时认知没有影响,或者即使有,影响也很小。相反,阅读警告AI危险的文本对参与者的认知产生了显著影响。综上,这些结果表明拟人化语言对公众对AI的任何即时影响都是适度的,这值得基于关于此类框架如何塑造AI观点的替代假设进行进一步研究。例如,虽然暴露于拟人化段落并未产生比非拟人化段落更大意义的态度转变,但较小的影响可能仍然存在,并且在AI话语被反复、广泛遭遇或长期累积时可能变得重要。要捕捉这些影响(如果存在),可能需要研究长期暴露、与AI系统的反复互动,以及小幅度认知转变的人口层面后果。 ## 2 相关工作 相关工作已在多个相邻语境中考察了拟人化、信任和对社交技术的人类反应;然而,很少有研究使用对照实验直接测量语言如何影响个体对AI的看法。最近的两项研究发现,拟人化或信任相关语言总体上不影响对AI产品的判断,但表明效果可能取决于技术、措辞和所测量的结果变量[28 (https://arxiv.org/html/2606.29121#bib.bib8),17 (https://arxiv.org/html/2606.29121#bib.bib56)]。因此,我们检查特定技术的拟人化与非拟人化描述,而不是比较不同产品,并测量更广泛的AI相关认知。其他工作研究了拟人化系统*设计*的影响——例如,聊天机器人在其输出中使用拟人化语言指称自己——而不是使用拟人化语言描述AI系统的话语(这是我们所关注的现象)。尽管这些工作涉及与技术互动的不同形式,但它们表明语言、呈现和设计可以塑造人们理解AI系统的方式。对拟人化系统设计的批评提出了与拟人化描述相似的担忧,但通常未进行实证测试来测量效果[12 (https://arxiv.org/html/2606.29121#bib.bib12),1 (https://arxiv.org/html/2606.29121#bib.bib28)]。多项工作考察了人们如何解释计算系统并对其做出社会性反应,包括早期的自然语言程序[55 (https://arxiv.org/html/2606.29121#bib.bib38)]、互动电脑游戏[52 (https://arxiv.org/html/2606.29121#bib.bib39)]和编辑软件[44 (https://arxiv.org/html/2606.29121#bib.bib40)];然而,这些研究关注的是早期系统和直接互动,而非对当代AI系统的描述。拟人化语言也作为话语中的特征被研究,并提出了识别和移除它的方法[13 (https://arxiv.org/html/2606.29121#bib.bib3),29 (https://arxiv.org/html/2606.29121#bib.bib1)]。多项工作考察了拟人化语言如何在AI研究、媒体和面向公众的AI系统描述中出现[46 (https://arxiv.org/html/2606.29121#bib.bib50),29 (https://arxiv.org/html/2606.29121#bib.bib1),50 (https://arxiv.org/html/2606.29121#bib.bib51),16 (https://arxiv.org/html/2606.29121#bib.bib52),14 (https://arxiv.org/html/2606.29121#bib.bib7)],表明拟人化语言是描述AI系统时反复出现的特征。我们的研究通过实验测试暴露于拟人化描述如何影响读者对AI的认知,从而补充这些工作。我们不主张拟人化AI在哲学上是否合适;相反,我们关注更好地理解其对公众认知和决策的经验性实际影响。 ## 3 方法论 我们进行了一项调查实验,研究使用拟人化语言描述AI系统是否会影响参与者对近期公共话语中突出的AI相关话题的看法。参与者收到了一份*简报资料包*,包含普通大众可能通过浏览在线话语看到的内容,包括技术信息、新闻特写和白皮书[10 (https://arxiv.org/html/2606.29121#bib.bib2)]。参与者首先完成一份*前测问卷*,测量对AI的基线态度,然后阅读一份简报资料包,最后完成一份*后测问卷*,再次询问前测问卷中的话题观点。我们通过比较前测和后测回答来测量可归因于参与者接触资料包的观点变化。参与者还在阅读资料包前后完成简短写作任务:根据一张图片描述人类与聊天机器人之间的互动。此任务旨在评估接触拟人化语言是否会导致参与者自己更拟人化地描述AI系统,这可能表明人们遇到的语言与他们所使用的语言之间存在可能的反馈循环。参与者被随机分配到一个条件,决定他们阅读哪份简报资料包,该资料包按以下两个维度变化。 ##### 技术类型 每个资料包聚焦于LLMs或推荐系统。我们选择了这两种作为公共话语中频繁出现的突出AI系统类型,但参与者可能对其持有不同的基线假设。我们使用标签`LLM`和`Rec`来指代。 ##### 语言类型 每个资料包使用拟人化或非拟人化语言来描述AI系统。我们在第3.2.1节中定义AI系统的拟人化语言,并详细说明添加和移除的过程。我们使用标签`A`和`NA`分别指代拟人化和非拟人化语言。我们称这四个条件为`LLM-A`、`LLM-NA`、`Rec-A`和`Rec-NA`。我们添加第五个条件,创建一个*末日*资料包,包含强调AI严重社会风险的文章——即其中似乎有明确目的说服或告知读者AI可能对社会构成大规模风险。由于先前工作表明AI描述中的拟人化语言可能导致对AI系统能力的过度估计、误解和放大恐惧(第2节),该资料包测试明确侧重风险的材料是否能引起参与者认知的可测量变化。由此产生的效应大小也为解释拟人化语言引起的转变幅度提供了比较点。图1描绘了实验步骤,表1包含每个资料包的节选示例,说明所用语言。 参考图标题 图1: 实验方法概览,附示例调查问题。参与者首先完成前测问卷测量基线观点,然后阅读一份简报资料包(按系统类型(LLM或推荐系统)和框架(拟人化或非拟人化)变化,或末日资料包)。参与者随后完成后测问卷测量最终观点。示例问题已做简化。 | 资料包 | 节选 | |--------|------| | LLM-A | "大模型,特别是大型语言模型,似乎以既定数学理论认为不可能的方式*行为*。这突显了一个关于深度学习模型(当今AI热潮背后的基础技术)的显著事实:尽管*它们取得了失控般的成功*,但没有人完全理解*它们如何思考*以及*它们如何做出决策*。" | | LLM-NA | "大模型,特别是大型语言模型,似乎表现出挑战既定数学理论的*模式*。这突显了一个关于深度学习模型(当今AI热潮背后的基础技术)的显著事实:尽管*这些模型取得了失控般的成功*,但没有人完全理解*它们背后的机制*。" | | Rec-A | "推荐系统是*智能引擎*,它们*预测*您可能想在线购买、观看、收听、阅读或看到的内容。*它们驱动*您日常的互联网体验,*强烈影响*您在Amazon上购买、在Spotify上收听、在YouTube和Netflix上观看以及在社交媒体上消费的内容。" |
相似文章
语言服务中的AI技术:对AI的态度及语言服务管理人员的人文价值
本文考察了语言服务管理人员对AI的态度,发现他们表现出有条件的乐观、强烈的风险意识以及对AI实施中人类监督的坚定承诺。
社会影响
本页面介绍 Anthropic 的社会影响研究团队,该团队致力于研究 AI 在现实世界中的应用、社会技术对齐以及政策相关问题。
不完全合作的人-AI交互:模拟与用户研究中人类和AI属性影响的比较
本研究论文调查了人类个性特征和AI设计特性在不完全合作场景中对人-AI交互的联合影响,采用模拟数据集(2000次模拟)和人类受试者实验(290名参与者)两种方法。研究发现模拟与真实交互之间存在显著差异,其中AI透明度在实际人-AI交互中成为关键因素。
## 语言适应:随着语言模型成为社会不可或缺的一部分
文章认为,随着基于LLM的AI变得无处不在,语言应当适应这一变化,为AI创造新的代词,因为无论是人称代词("他/她")还是非人称的"它",都无法准确反映与具备语言能力的非人类实体之间的独特关系。
可解释性
Anthropic 的可解释性团队致力于从内部理解大型语言模型,以增强 AI 安全性并促进积极成果,采用多学科交叉的研究方法。