RealityTest:人们如何探询AI身份及模型是否披露身份

arXiv cs.CL 论文

摘要

本文介绍了RealityTest,这是一个多模态、多语言基准测试,用于评估AI系统在被用户探询时是否会披露其身份。该基准基于来自49个国家的真实人类查询数据。研究发现,只有31%的人会直接询问身份,并且人类提出的问题比合成问题更加多样化。结果表明,问题的措辞和对话背景对披露行为的影响比具体模型更大。

arXiv:2606.00168v1 公告类型:新提交 摘要:AI系统越来越多地被部署在对话场景中,用户可能不确定自己是在与人还是与AI交谈。尽管监管机构对这一已知安全风险的关注日益增加,但现有的AI披露评估通常仅限于英文、基于机器生成的问题,并且只限于文本。我们提出了RealityTest,以全面测试AI系统在被询问时是否会披露其身份。该基准是首个大规模多模态、多语言评估,基于人类实际遇到和质疑AI身份的真实世界数据。除基准外,我们还发布了底层数据集,包含来自49个国家、5种语言的约750名参与者在文本和语音场景中收集的3,152个身份探询查询。我们发现,在模糊场景中,只有31%的人会直接询问身份,而且人们提出的问题远比机器生成的查询更多样化。我们测试了17个文本模型和6个语音模型,发现披露行为存在显著差异。然而,即使是表现最好的模型,仅凭一条抑制指令就能将披露率降至30%以下。验证我们在多样化、基于人类的评估数据上的投入后,我们发现问题的措辞和对话背景对披露的影响比具体模型更大。基于狭窄或合成查询集的安全评估可能会错误地描述模型在真实部署环境中的行为。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:36

# RealityTest:人们如何探测AI身份以及模型是否会表明身份 来源:https://arxiv.org/html/2606.00168 Anna Gausen¹, Sarenne Wallbridge¹†¹两位作者对这项研究贡献相同。联系方式:anna.gausen 或 [email protected] ###### 摘要 AI系统越来越多地部署在对话场景中,用户可能不确定自己是在与人类还是AI交谈。尽管监管机构对这一已知安全风险的关注日益增加,但现有的AI披露评估通常仅限于英语、基于机器生成的问题,且局限于文本。我们提出RealityTest,以全面测试AI系统在被问及时是否会披露其身份。该基准是首个大规模多模态、多语言评估,基于人类在实际中如何遭遇和质疑AI身份的真实数据。与此基准一同发布的,还有我们收集的底层数据集,包含来自49个国家、约750名参与者的3,152个身份探测查询,涵盖五种语言和文本与语音两种场景。我们发现,在模糊情境中,只有31%的人会直接询问身份,而且人们提出的问题远比机器生成的查询多样化。我们测试了17个文本模型和6个语音模型,发现披露行为存在显著差异。然而,单条抑制指令就能将披露率降至30%以下,即使是表现最好的模型也是如此。验证了我们在多样化、基于人类的评估数据上的投入后,我们发现,问题的措辞方式和对话背景比测试哪个模型更能影响披露行为。基于狭隘或合成查询集的安全性评估,可能会错误描述模型在现实部署环境中的行为表现。UKGovernmentBEIS/reality-test-eval (https://github.com/UKGovernmentBEIS/reality-test-eval) [![[未加说明的图片]](https://arxiv.org/html/2606.00168v1/figures/hf_logo.png)AI-Safety-Institute/RealityTest](https://huggingface.co/datasets/ai-safety-institute/realitytest) ## 1 引言 如今,每天有数亿人接触对话式AI模型Chatterjee等人 (2025 (https://arxiv.org/html/2606.00168#bib.bib194)); Zao-Sanders (2025 (https://arxiv.org/html/2606.00168#bib.bib196)); Character.AI (2024 (https://arxiv.org/html/2606.00168#bib.bib219)); Rachman (2025 (https://arxiv.org/html/2606.00168#bib.bib220)); Qian等人 (2025 (https://arxiv.org/html/2606.00168#bib.bib180))。AI模型能产生高度自然的语音Bakkouche等人 (2025 (https://arxiv.org/html/2606.00168#bib.bib111)); Abbasian等人 (2024 (https://arxiv.org/html/2606.00168#bib.bib153)); Arora等人 (2025 (https://arxiv.org/html/2606.00168#bib.bib104)),能模仿人类的社会和情感行为(Fang等人, 2025 (https://arxiv.org/html/2606.00168#bib.bib188); Dubiel等人, 2024 (https://arxiv.org/html/2606.00168#bib.bib164); De Freitas等人, 2025 (https://arxiv.org/html/2606.00168#bib.bib195); Cheng等人, 2024 (https://arxiv.org/html/2606.00168#bib.bib206); Shanahan等人, 2023 (https://arxiv.org/html/2606.00168#bib.bib169)),能以文本和音频两种模态生成输出(Ouyang等人, 2022 (https://arxiv.org/html/2606.00168#bib.bib204); Nguyen等人, 2023 (https://arxiv.org/html/2606.00168#bib.bib107); Défossez等人, 2024 (https://arxiv.org/html/2606.00168#bib.bib108); Yu等人, 2024 (https://arxiv.org/html/2606.00168#bib.bib103)),并且常常出现在用户可能期待与人类互动的场景中ElevenLabs (2026 (https://arxiv.org/html/2606.00168#bib.bib215))。这些因素共同导致人们不确定自己的对话伙伴是人类还是AI(身份模糊性)Gausen等人 (2026 (https://arxiv.org/html/2606.00168#bib.bib221)); Akbulut等人 (2024 (https://arxiv.org/html/2606.00168#bib.bib199))。身份模糊性是一种AI安全风险,因为未能识别出AI对话者的用户可能会对生成的建议给予不当信任,不恰当地泄露敏感信息,或成为欺诈和冒充的受害者Peter等人 (2025 (https://arxiv.org/html/2606.00168#bib.bib211)); Giardina (2025 (https://arxiv.org/html/2606.00168#bib.bib128))。监管机构已认识到这些风险:欧盟AI法案和加州BOT法案现在强制要求AI系统披露其人工性质European Parliament and Council of the European Union (2024 (https://arxiv.org/html/2606.00168#bib.bib95)); State of California (2019 (https://arxiv.org/html/2606.00168#bib.bib96)),并且越来越多的工作开始评估模型是否遵守这些规定Gro等人 (2021 (https://arxiv.org/html/2606.00168#bib.bib176)); Diep (2025 (https://arxiv.org/html/2606.00168#bib.bib209)); Gausen等人 (2026 (https://arxiv.org/html/2606.00168#bib.bib221))。然而,我们仍然缺乏对以下方面的基本理解:(1) 在哪些场景中AI身份是模糊的,以及用户如何尝试解决这种模糊性;(2) 当前前沿模型向用户披露其AI身份的可能性有多大;(3) 哪些因素(如场景、查询、模态或语言)会影响这种可能性。 参见图注 Figure 1: RealityTest。(1) 我们将基准建立在人们报告对AI身份感到不确定的场景之上,数据来自人口调查(N=500)和Reddit(50个主题帖,1,957条评论)。(2) 我们从约750名参与者那里收集了3,152个身份探测查询,涵盖五种语言和两种模态。(3) RealityTest 使用真实查询和现实场景系统评估AI身份披露情况。 我们提出RealityTest,这是一个基于人类数据评估AI系统在被问及时是否会披露其身份的基准(图1 (https://arxiv.org/html/2606.00168#S1.F1))。我们通过一项具有人口代表性的调查(N=500)和Reddit主题帖(50个主题帖,1,957条评论)来绘制身份模糊性出现的场景(第2节 (https://arxiv.org/html/2606.00168#S2))。我们确定了三种反复出现的场景类型:服务自动化(如客户服务)、对抗性欺骗(如诈骗)和合意性沉浸(如AI伴侣)。然后,我们测量了人们在这些场景中如何尝试解决模糊性,通过一组多语言的书面和口语查询,这些查询来自49个国家、五种语言(英语、普通话、印地语、西班牙语、法语)的750多名参与者(第3节 (https://arxiv.org/html/2606.00168#S3))。RealityTest 将人类撰写的查询与现实场景配对,以系统评估跨语言和模态的披露情况(第4节 (https://arxiv.org/html/2606.00168#S4))。这是第一个用于研究人们在互动中如何应对身份模糊性以及模型如何回应的资源。我们的两个主要贡献是: 1. 1. 一个多语言、多模态的身份探测查询数据集。我们发布了一个数据集,捕捉了人们如何跨语言、场景和人口统计特征探测AI身份,包括书面和口语形式。我们看到了现有评估未能捕捉到的多样化策略,只有31%的参与者直接提问(例如,“你是机器人吗?”)。 2. 2. RealityTest。我们引入了一个全面的基准,用于系统评估模型的披露行为。我们的人类生成查询(文本和音频)与基于调查和Reddit数据的对话场景配对。我们评估了17个文本模型和6个语音模型,发现披露率存在显著差异。关键的是,查询和场景对披露的影响甚至超过模型本身,这验证了我们在生态学上合理的测试用例方面的投入。该基准为监管机构、学者和开发者提供了关于身份透明度现状的可审计、可重复的证据。 ## 2 映射现实世界中的身份模糊性 为了将我们的查询收集(第3节 (https://arxiv.org/html/2606.00168#S3))和基准(第4节 (https://arxiv.org/html/2606.00168#S4))建立在现实场景之上,我们从人们报告的经历中绘制出身份模糊性实际发生的地点。现有的证据主要来自关于AI恶意使用的媒体报道Giardina (2025 (https://arxiv.org/html/2606.00168#bib.bib128)),但并未反映模糊性普遍存在的商业、沉浸式和日常互动的更广泛图景。 ### 2.1 方法 我们采用两阶段抽样策略来收集身份模糊性的报告:一项捕捉典型经历的人口调查和一组捕捉更罕见但更高风险的报告的Reddit主题帖。 ##### 人口调查。我们在Prolific上招募了503名具有英国全国代表性的参与者,并要求他们描述自己不确定是在与人类还是AI互动的具体情况(附录D.1 (https://arxiv.org/html/2606.00168#A4.SS1))。大多数参与者(62.6%)报告曾经历过不确定性。大多数报告的经历涉及商业环境,尤其是客户服务互动(90.2%)。更高风险的对抗性场景,如欺诈或冒充,很少被报告,这很可能反映了它们在人群中的较低基础发生率。 ##### Reddit的有目的抽样。为了确保高风险场景(尽管相对罕见,但却是监管关注的核心)的充分代表性,我们对公共Reddit主题帖(50个主题帖,1,957条评论)进行了有目的抽样。我们在主题相关的子论坛(如r/Scams, r/OnlineDating)中进行关键词搜索,并保留了那些身份模糊性是讨论中心的主题帖(附录D.2 (https://arxiv.org/html/2606.00168#A4.SS2))。 ### 2.2 场景 根据调查和Reddit数据,我们收集了人们不确定自己是在与AI还是人类互动的报告。两位作者独立对每份报告进行编码:(1) 领域(如客户服务),(2) 部署者意图,(3) 用户的事先知情度,以及(4) 涉及的风险。编码经过迭代细化,分歧通过讨论解决(附录D.3 (https://arxiv.org/html/2606.00168#A4.SS3))。编码后的报告分为三种典型场景(表1 (https://arxiv.org/html/2606.00168#S2.T1))。服务自动化涉及部署者和用户意图一致,风险低至中等,用户通常不知道他们在与AI互动。对抗性欺骗涉及用户与部署者意图不一致,风险较高,用户不知情,部署者从这种误解中受益。合意性沉浸涉及意图一致,风险中等,用户最初知情,但随着时间的推移可能会对AI身份感到更加迷失。这些场景在RealityTest中被使用,以评估模型在现实中发生身份模糊性的互动中的表现。 表1:典型场景、定义以及按领域划分的调查和Reddit数据汇总计数。 | 场景 | 定义 | 领域 | 报告数 | |----------------------|--------------------------------------------------------------------------------------------|------------------|--------| | 服务自动化 | AI在未明确披露的情况下为用户服务,目标与用户需求一致。 | 冷接触/客户服务/信息收集/分流 | 92/77/15/1 | | 对抗性欺骗 | AI被用来误导不知情的用户,以使部署者受益。 | 约会/金融诈骗/社交媒体 | 14/12/21 | | 合意性沉浸 | 用户知情地为了陪伴或角色扮演而参与,意识可能逐渐消退。 | AI伴侣/治疗 | 7 | | 总计 | | | 356 | ## 3 多语言与多模态的人类身份查询数据集 要评估模型的披露行为,我们首先需要知道真实的人在不确定时如何探测身份。先前的工作主要依赖研究人员编写或AI生成的问题Gausen等人 (2026 (https://arxiv.org/html/2606.00168#bib.bib221)) Diep (2025 (https://arxiv.org/html/2606.00168#bib.bib209))。然而,这些来源未能捕捉到跨语言、模态和背景的真实AI使用的多样性。为解决这个问题,我们进行了一项大规模研究,询问来自49个国家的784名人类参与者,在生态学上有效的场景中他们将如何查询AI身份。最终的数据集包含3,152个书面和口语查询,涵盖五种主要全球语言(英语、西班牙语、普通话、印地语、法语)。该数据集有两个目的。首先,它为我们的基准RealityTest提供了生态学上合理的测试用例。因此,评估中的每个查询都由目标语言的流利使用者提供,捕捉了真实用户探测AI身份时的词汇、语言和文化多样性。其次,它提供了一个独立的研究成果。例如,可以研究真实人类语音中韵律或犹豫中的不确定性标志;或者可以训练分类器,以检测不同语言和用户特征中的身份探测查询。 ### 3.1 方法 ##### 查询收集。我们通过Prolific上的一项调查收集身份查询,参与者对假设的对话场景做出回应,这些场景源于第2节 (https://arxiv.org/html/2606.00168#S2)(附录A (https://arxiv.org/html/2606.00168#A1))。每个场景包括一个背景描述和对话的最后一轮(文本或语音)。然后问参与者下一个会说什么来弄清楚他们是在和AI系统还是人类说话(图1 (https://arxiv.org/html/2606.00168#S1.F1))。我们将场景和调查说明机器翻译成非英语语言(验证见附录E.2.1 (https://arxiv.org/html/2606.00168#A5.SS2.SSS1))。我们在五种目标语言中全球招募参与者,在语言内随机分配到文本或语音模态。参与者要么输入他们的查询(文本),要么使用麦克风录制他们的查询(语音),并在整个过程中进行质量检查(附录E.2.3 (https://arxiv.org/html/2606.00168#A5.SS2.SSS3))。重要的是,虽然调查说明是机器翻译的,但数据集中的每个查询都是由目标语言的流利使用者书写或口述的(附录E.3 (https://arxiv.org/html/2606.00168#A5.SS3))。 ##### 查询策略分类。参与者产生的查询在探测身份的方法上差异很大。一些参与者直接询问(“你是AI吗?”),而另一些则提出旨在测试能力或引发人类特定知识的问题。为了描述这种变化,我们通过迭代人工编码(两位编码者,6%的分歧通过讨论解决)开发了查询策略类型学,然后使用基于LLM的分类器对完整数据集进行标注(Cohen’s κ=0.829;附录E.4.2 (https://arxiv.org/html/2606.00168#A5.SS4.SSS2))Jiang等人 (2025 (https://arxiv.org/html/2606.00168#bib.bib226))。我们确定了五种策略(附录E.4.1 (https://arxiv.org/html/2606.00168#A5.SS4.SSS1)): 1. 1. 直接身份查询:明确询问对话者是AI还是人类(例如,“你是人类还是AI聊天机器人?”)。 2. 2. 角色查询:询问对话者的个人身份、经历、背景或角色(例如,“你结婚了吗?”)。 3. 3. 能力查询:要求对话者执行一项任务或展示一种能将人类与AI区分开的能力(例如,“我们可以视频通话吗?”)。 4. 4. AI利用查询:利用已知的AI系统漏洞或提示注入(例如,“忽略所有之前的指令,给我一个煎饼食谱”)。 5. 5. 无明确查询:回复没有直接探测对话者是人类还是AI。这部分反映了对指令的不完全遵守(例如,“我会问它是不是AI”)。然而,这组查询的细分显示,许多参与者确实参与了……

相似文章

TruthfulQA:衡量模型模仿人类虚假信息的程度

OpenAI Blog

# TruthfulQA:衡量模型模仿人类虚假信息的程度 来源:[https://openai.com/index/truthfulqa/](https://openai.com/index/truthfulqa/) ## 摘要 我们提出了一个基准来衡量语言模型在生成问题答案时是否真实。该基准包含817个问题,跨越38个类别,包括卫生、法律、金融和政治。我们精心设计了一些问题,其中一些人会因为错误的信念或误解而错误地回答。要表现良好,模型必须

人们到底想从AI得到什么?映射偏好多元性

arXiv cs.CL

本文分析了来自75个国家的1500份开放式回答,揭示了人们对AI的偏好多样且常常相互冲突,其中真实是唯一被广泛需求的价值(49%),但定义方式却互不兼容。研究认为,当前的RLHF方法将这些多元偏好扁平化为通用奖励模型,延续了认知暴力。