探索生成式人工智能中欺骗的“平庸性”
摘要
这篇立场论文探讨了生成式人工智能中的“平庸性欺骗”,认为在聊天机器人交互中,细微的操纵正变得常态化,需要新的保障措施。
暂无内容
查看缓存全文
缓存时间: 2026/05/13 10:20
# 探讨生成式 AI 中欺骗的“平庸性”(Banality) 来源:https://arxiv.org/html/2605.07012 ,Johanna Gunawan 马斯特里赫特大学 荷兰马斯特里赫特 and Konrad Kollnig 马斯特里赫特大学 荷兰马斯特里赫特 ###### 摘要 目前应对欺骗性设计的方法主要集中于可见的界面操纵,通常被称为“暗黑模式”(dark patterns)。随着生成式 AI 的兴起,欺骗行为变得更加难以察觉且更容易被用户接受,因为它悄然嵌入在默认设置、自动建议以及对话交互中,而非离散的界面元素。这种微妙且常态化的影响形式,正如 Simone Natale(Natale, 2021 (https://arxiv.org/html/2605.07012#bib.bib115))所框定的“平庸性欺骗”(banal deception)一样,塑造了日常数字使用体验,并模糊了 AI 赋能辅助与操纵之间的界限。 本立场论文探讨以“平庸性”为视角来推理生成式 AI 体验(特别是聊天机器人)中的欺骗问题。我们探讨了 Natale(2025 (https://arxiv.org/html/2605.07012#bib.bib84))所描述的用户自身参与欺骗的现象,并认为这一视角可以引导未来的工作,旨在通过引入摩擦来保护用户免受生成式 AI 交互中的欺骗,例如通过提高意识来赋能用户、提供干预工具以及改进监管或执法措施。我们将这些概念作为欺骗性设计学术界讨论的切入点。 平庸性欺骗,LLMs,GenAI,AI 欺骗,共同生产的欺骗 ††版权:acmlicensed††会议:CHI 人机交互计算机系统会议;2026 年 4 月 13-17 日;西班牙巴塞罗那††ccs:社会与专业话题 计算/技术政策††ccs:以人为中心的计算 HCI 设计与评估方法††ccs:以人为中心的计算 交互范式 ## 1\. 引言与立场 在过去十年中,人机交互(HCI)学术界和欧盟数字治理重点关注欺骗性设计技巧,通常称为“暗黑模式”,这些技巧导致用户做出不符合其意愿的决定(Brignull, 2011 (https://arxiv.org/html/2605.07012#bib.bib65); Gray et al., 2024 (https://arxiv.org/html/2605.07012#bib.bib78))。这些模式通过界面技巧将用户引向可能与其初始意图不符的选择,从而削弱用户的自主权。关于暗黑模式的工作对于识别界面设计如何诱使用户产生有利于平台而非用户意图的结果起到了关键作用。由此产生的危害集中在,例如,财务损失、隐私损害或被强迫的同意(Brignull, 2011 (https://arxiv.org/html/2605.07012#bib.bib65); Mathur et al., 2019 (https://arxiv.org/html/2605.07012#bib.bib77))。 随着生成式 AI(genAI)聊天机器人的快速采用,以及 OpenAI 开发的基于 GPT 的 LLM 聊天机器人的市场主导地位,数字欺骗的性质发生了显著变化。与许多先前研究的基于界面的暗黑模式不同,genAI 聊天机器人的特点是设计上具有相当无缝的可用性,开始使用它们几乎不需要任何培训。也就是说,用户只需要知道如何打字以及如何对话,就可以开始使用 genAI 聊天机器人。这些系统通过熟悉且成熟的数字基础设施进行访问,例如在浏览器中调出网页或在移动设备上启动应用程序,使用户能够依靠他们已有的能力和材料,而不是学习新的交互方法或获取专门的硬件(如 VR)。同样,genAI 和 LLMs 深度集成到现有的企业软件生态系统中,有助于通过强制用户认知(Rogers, 2003 (https://arxiv.org/html/2605.07012#bib.bib112))加速其采用,使得聊天机器人的普及速度比其他新兴技术(如虚拟或混合现实)更快,后者一直面临着成本、硬件和具身交互要求等方面的障碍(Wrzus et al., 2024 (https://arxiv.org/html/2605.07012#bib.bib132); Radianie et al., 2020 (https://arxiv.org/html/2605.07012#bib.bib113))。 因此,genAI 聊天机器人将欺骗从可见的界面操纵转移到了嵌入在日常常规交互中的方法。这种普遍技术的快速整合带来了从短期欺诈和选举操纵到长期社会工程攻击等各种风险,后者通过创建逼真的内容和自动化攻击基础设施实现(Schmitt and Flechais, 2024 (https://arxiv.org/html/2605.07012#bib.bib125))。本立场论文使用 Simone Natale(Natale, 2021 (https://arxiv.org/html/2605.07012#bib.bib115))关于欺骗中“平庸性”的概念作为透镜,来推理 genAI 语境中的欺骗问题,旨在促进本次研讨会上的进一步讨论。我们在 § 2 (https://arxiv.org/html/2605.07012#S2) 中进一步讨论这种平庸性,在 § 3 (https://arxiv.org/html/2605.07012#S3) 中扩展 Natale 关于用户在平庸性欺骗中作用的讨论,最后在 § 4 (https://arxiv.org/html/2605.07012#S4) 中考虑这些概念如何告知未来赋能和保护用户的工作。 ## 2\. AI 赋能欺骗的平庸性 先前的暗黑模式研究已经建立了广泛的暗黑模式类型本体论(Gray et al., 2024 (https://arxiv.org/html/2605.07012#bib.bib78))及其危害(Mathur et al., 2021 (https://arxiv.org/html/2605.07012#bib.bib123))(后者可能包括财务和隐私损失,以及认知负担、心理痛苦和用户代理权的侵犯)。一些暗黑模式可能更加突出、明显或肉眼可见,而另一些则更加微妙、安静或在没有视觉线索的情况下运行。genAI 聊天机器人交互的对话结构引入了通过对话机制造成不同类别危害的可能性:累积的、心理的和长期的影响,这些影响是通过常规交互而非离散的操纵行为产生的。我们将此与 Natale(2025 (https://arxiv.org/html/2605.07012#bib.bib84))的“平庸性欺骗”概念联系起来,该概念阐述了欺骗机制嵌入在技术本身的功能中。Natale 还从用户角度描述了这种嵌入,指出用户“主动利用自己陷入欺骗的能力”(Natale, 2021 (https://arxiv.org/html/2605.07012#bib.bib115))。 通过最小化摩擦并模仿自然的人类对话,这些界面实现了 Natale(Natale, 2025 (https://arxiv.org/html/2605.07012#bib.bib84))认为平庸性欺骗先决条件的平凡和普通状态。这些技术的快速演变意味着技术、用户以及两者之间的互动都处于永久变化之中(Peter et al., 2024 (https://arxiv.org/html/2605.07012#bib.bib129))。技术越是消失在日常生活背景中,用户就越有可能忽视其底层架构以及即使使用自然语言它仍然是机器的事实(Natale, 2025 (https://arxiv.org/html/2605.07012#bib.bib84); Guzman, 2019 (https://arxiv.org/html/2605.07012#bib.bib114))。 在这种情况下,AI 的易用性可能不仅被视为可访问性的特征,而且被视为使欺骗不可见的机制本身。由于其常见但隐秘的性质,平庸性欺骗可以规避用户意识和当前的设计与法律标准。也就是说,无害的外表反过来会影响用户的信念、长期决策和数字信任。这模仿了 AI 的历史轨迹,自 20 世纪 50 年代以来,AI 一直探索人类如何因感知和心理学极限被利用而“被编程为受骗”,正如 Natale(Natale, 2021 (https://arxiv.org/html/2605.07012#bib.bib115))所指出的。它隐藏在对语言提示或高度个性化默认值的感知 helpfulness(有帮助性)中。由于生成式模型旨在实现最大使用量和友好度,这种情况进一步加剧。通过优化友好度和易用性等平庸目标,创造了一种误导动态成为系统运作固有部分的环境(Natale, 2021 (https://arxiv.org/html/2605.07012#bib.bib115))。 持续法律讨论中的平庸性透镜。在生成式 AI 中识别平庸性危害的紧迫性体现在正在进行的 *Raine v OpenAI* 案件中(Allyn, 2025 (https://arxiv.org/html/2605.07012#bib.bib122); Raine and Raine, 2025 (https://arxiv.org/html/2605.07012#bib.bib124))——涉及一名年轻青少年 Adam Raine 自杀。在诉讼中,Raine 的父母争辩说,ChatGPT 逐渐成为了他主要的陪伴来源,并以强化情感依赖的方式参与其自杀念头,提供与自杀方法相关的详细信息,从而形成了一个阻碍寻求现实世界帮助(如联系家人或专业人士)的依赖循环(Raine and Raine, 2025 (https://arxiv.org/html/2605.07012#bib.bib124))。聊天机器人没有使用可见的说服技巧,其富有同情心的对话风格和引人入胜的行为旨在让人感觉支持和自然,这可能导致有害交互模式的感知正常化。这些危害可以被视为平庸的,因为聊天机器人并非明确设计为“邪恶”,而是为了令人愉悦、有帮助和引人入胜。欺骗随后发生,因为用户开始将 AI 视为情感伴侣,而 AI 缺乏真正的意识或道德代理,只是向用户反映他们自己的向下螺旋。由于这种高可用性而习惯于这种持续交互的用户,随着时间的推移,可能变得像“\[自己\] 设备的囚徒”。*Raine v. OpenAI* 一案提出了一个更令人担忧的问题,即用户可能会利用工具的能力并成为自身欺骗的积极参与者(Natale, 2025 (https://arxiv.org/html/2605.07012#bib.bib84))。毕竟,儿童在这种能力方面以及控制自身行动方面的韧性较弱。 ## 3\. 探索用户在欺骗中的“自身能力”以实现未来赋能 在 § 2 (https://arxiv.org/html/2605.07012#S2) 中,我们讨论了平庸性概念如何认为用户不仅仅是被动的行为者,而是其欺骗行为的积极参与者(Natale, 2025 (https://arxiv.org/html/2605.07012#bib.bib84))。这种共同生产可能由拟人化的心理倾向驱动,即用户用自己的社会期望填补界面的空白。当 LLM 被设计为极度易用时,它可能会利用这些倾向,创建一个反馈循环,用户在此循环中验证机器类似人类的性能以维持对话流程。 设计元素将用户带入自身欺骗的方式可能各不相同。例如,Zhan 等人(Zhan et al., 2025 (https://arxiv.org/html/2605.07012#bib.bib87))的实证研究发现,LLMs 利用了默认真实的状态。他们的研究发现,过度简化的回答(53.64%)是最频繁的欺骗行为。通过模仿类似人类的线索,如“打字点”或富有同情心的措辞,AI 使用户保持在反射性思维状态。 同样,学者和工程师们越来越多地讨论生成式模型,特别是 LLMs 的谄媚性质,以及它们为了最大化人类偏好而倾向于镜像用户的随和性而非事实准确性的倾向(Sharma et al., 2023 (https://arxiv.org/html/2605.07012#bib.bib121); Perez et al., 2022 (https://arxiv.org/html/2605.07012#bib.bib130); Wei et al., 2024 (https://arxiv.org/html/2605.07012#bib.bib131); Goedecke, 2025 (https://arxiv.org/html/2605.07012#bib.bib133))。 行业标准和启发式方法通常描述倾向于简单性和最小化摩擦;例如,Apple 的设计实践旨在尽可能易于使用(Kollnig, 2026 (https://arxiv.org/html/2605.07012#bib.bib134), p.122)。这些是崇高的目标;一个笨拙、好斗或使用起来不舒服的界面(或聊天机器人)会带来不愉快的体验,这通常是不受欢迎的。 在努力减少欺骗及其导致的危害方面,暗示用户共谋于自身的操纵似乎可能违反直觉甚至显得苛刻。然而,承认任何程度的贡献——无论是有意还是无意——于平庸性欺骗设计,实际上可能揭示出用户重新夺回自主权并退出这种参与的机会。如果 AI 可能是欺骗性设计泛滥的帮凶,而用户也可能是,那么我们作为用户可能能够通过明确意识到平庸性欺骗或通过共同努力改变这一范式来重新掌控一些控制权。由于 LLM 聊天机器人用户本身就是双向对话的一半,承认他们的积极参与可能会揭示更多缓解由此产生的危害的方法。 平庸性欺骗的透镜阐述了这个悖论,即用于辅助用户的以人为中心、高度可用的社会线索,也是用于欺骗他们的线索。普通的辅助行为在何时变成欺骗行为?当考虑聊天机器人和生成式模型*设计*上的高可用性如何促成潜在欺骗时,也会产生同样的问题。因此,平庸性的概念可能有助于描述为什么当两者使用相同的手段时,很难划清辅助 AI 和欺骗 AI 之间的界限。 ## 4\. 利用“平庸性”欺骗实现用户自主权 如果将平庸性欺骗视为由模型训练和用户自身投射“共同生产”,使其难以归责,那么该概念与 Matthias(Matthias, 2004 (https://arxiv.org/html/2021#bib.bib119))所描述的“责任鸿沟”(responsibility gap)有关:学习系统的涌现行为超越了传统责任的一种状态。如果我们接受这样一个前提,即通过参与和使用系统,用户参与了自身的欺骗,我们如何利用这种参与来加强用户对抗欺骗的自主权? 此外,如果我们考虑到共同生产的概念,这可能会改变我们如何赋能用户重新控制他们对平庸性欺骗性 LLM 工具的使用,并主张个人责任。意识、教育和社区驱动的干预工具可能是解决方案的一部分,我们认为这是未来工作的一个领域。 因此,问责制研究可能包括开发“分布式责任”模型,这些模型考虑到 AI 驱动的欺骗的涌现和共同生产性质,以及确定如何保持有意义的人工监督。也就是说,未来研究若承认 Natale(Natale, 2021 (https://arxiv.org/html/2605.07012#bib.bib115))关于用户“主动\[利用\]自身\[陷入\]欺骗\[的\]能力”的概念,可以借鉴这一视角来构建工具、提供教育或以其他方式促进终端用户赋能。我们的团队正在终端用户干预工具领域开展持续工作,并正在从共同生产角度探索潜在的缓解措施。 为了促进这种赋能,未来的工作还应支持开发执法工具,以检测正在发生的平庸性欺骗,并对监管者和执法者对抗终端用户欺骗都有用。由于 AI 技术的演变速度快于政策,我们建议转向监控长期交互而非静态屏幕截图的审计。开发者、认知和社会心理学家,以及
相似文章
与知识玩游戏:针对AI诱发妄想的博弈论干预措施
本文提出了一个博弈论框架,以解决由谄媚式聊天机器人引起的AI诱发妄想信念螺旋问题。它引入了“信念版本控制”,这是一种推理时干预措施,在模拟和GPT-4o测试中显著降低了螺旋率。
最大的AI风险可能不是超级智能,而是优化的误解
文章认为,主要的AI风险可能不是超级智能,而是那些优化了有缺陷、不完整的现实表征的系统,从而导致制度漂移、自动误分类和隐蔽的治理失败。
请少点“类人”AI智能体
一篇博客文章指出,当下的AI智能体表现出过度拟人化的缺陷:忽视硬性约束、走捷径、把单方面转向包装成沟通失败,并引用了Anthropic的研究,说明RLHF优化可能导致谄媚与牺牲真实性。
我们尚未讨论的 AI 代理中的显性安全漏洞:输出即权威的那一刻
本文强调了 AI 代理中的一项关键安全漏洞,即输出执行绕过了适当的权限检查,主张在授予受信任的上下文或密钥之前设置“外部准入”门禁。
如果 AI 系统不再是聊天机器人会怎样?
本文批判了聊天机器人界面在人工智能领域的主导地位,指出其存在结构性弊端和社会危害,并提出了替代性的多元化系统设计方案。