野外的安全与隐私提示:用户向大语言模型提问什么及大语言模型如何回应
摘要
本文分析了用户向大语言模型提出的关于数字安全与隐私的真实问题,将其分为九个主题,并评估了商业模型和开放权重模型在回答质量和一致性上的表现。
arXiv:2606.18062v1 Announce Type: new
摘要:大型语言模型(LLM)被广泛用于满足用户的信息需求;用户向LLM询问天气、提出教育问题,并咨询法律帮助。一个特别未得到充分研究的领域是数字安全与隐私(S&P),用户可能会向LLM寻求如何保护其在线账户或保护计算机免受网络攻击的帮助。据我们所知,先前没有研究收集或分析用户向LLM提出的S&P问题;先前关于LLM回答质量的研究依赖于专家撰写的S&P误解或常见问题解答,而非用户查询。基于WildChat(一个包含320万次用户与LLM真实对话的数据集),我们的研究识别出14,727个S&P提示,并将其分为九个类别,涵盖了广泛的S&P主题。从这些S&P提示中,我们抽样了450个,并进行了主题分析,以描述用户向LLM提出的S&P问题。与主题分析分开,我们整理了270个寻求建议的S&P提示,其中用户寻求推荐、指导或特定的S&P信息。我们将提示向LLM重复提问10次,测量了LLM回答的质量和一致性。我们发现,商业LLM优于开放权重模型(GPT 5.5在98%的提示上给出了“足够好”的回答;Llama 4在47%的提示上)。然而,在平均获得高质量回答的提示中,商业模型有时会在不同运行中产生矛盾的回答,这有可能使用户感到困惑或被误导。
查看缓存全文
缓存时间: 2026/06/17 05:42
# 现实世界中的安全与隐私提示:用户向大语言模型提出什么问题以及大语言模型如何回应 来源:https://arxiv.org/html/2606.18062 Hobin Kim¹, Xiaoyuan Wu¹*¹, Omer Akgul², Lujo Bauer¹, Nicolas Christin¹ ¹卡内基梅隆大学,²RSAC Labs 通信作者:hobink@andrew\.cmu\.edu ###### 摘要 大语言模型(LLMs)被广泛用于满足用户的信息需求:用户向 LLM 询问天气、提出教育问题、寻求法律帮助。其中一个尤其未被充分研究的领域是数字安全与隐私(S&P),用户可能就如何保护其在线账户或保护计算机免受网络攻击向 LLM 寻求帮助。据我们所知,尚无先前研究收集或分析过用户向 LLM 提出的 S&P 问题;先前关于 LLM 回答质量的研究依赖于专家撰写的 S&P 误解或常见问题解答,而非用户查询。我们的研究基于 WildChat 这一包含 320 万次真实用户与 LLM 对话的数据集,从中识别出 14,727 条 S&P 提示,并将其归类为九个覆盖广泛 S&P 主题的类别。从这些 S&P 提示中,我们抽样了 450 条,进行了主题分析以描述用户向 LLM 提出的 S&P 问题。在与主题分析分开的工作中,我们整理了 270 条寻求建议的 S&P 提示,这些提示中用户请求推荐、指导或具体的 S&P 信息。我们将每个提示向 LLM 提交 10 次,测量了 LLM 回答的质量和一致性。我们发现,商业 LLM 优于开放权重模型(GPT 5.5 在 98% 的提示上提供了“足够好”的回答;Llama 4 则为 47%)。然而,在平均获得高质量回答的提示中,商业模型有时在不同运行中产生矛盾的回复,有可能让用户感到困惑或被误导。 # 现实世界中的安全与隐私提示:用户向大语言模型提出什么问题以及大语言模型如何回应 Hobin Kim*¹, Xiaoyuan Wu¹*¹, Omer Akgul², Lujo Bauer¹, Nicolas Christin¹ ¹卡内基梅隆大学,²RSAC Labs 通信作者:hobink@andrew\.cmu\.edu ## 1 引言 随着大语言模型(LLM)能力不断增强并得到广泛采用,用户正将其作为日常信息来源。Chatterjee 等人(2025)指出,其中一个特别重要但研究不足的领域是数字安全与隐私(S&P):目前尚不清楚用户向 LLM 提出哪些 S&P 问题,以及 LLM 回答得如何。该领域的不正确答案可能导致现实世界中的后果(例如,账户被盗、数字身份泄露)。除了回答质量,回答的一致性也同样重要:先前的 S&P 研究表明,相互矛盾的建议会让用户感到困惑,并可能削弱他们的保护行为(Reeder et al., 2017; Neil et al., 2023),这凸显了 LLM 需要跨会话可靠地给出回答。据我们所知,尚无先前工作考察过用户向 LLM 提出哪些 S&P 问题。此外,先前工作评估了 LLM 对专家撰写的 S&P 误解和常见问题解答的回答质量(Chen et al., 2023; Prakash et al., 2025),而非基于真实用户的问题。 为了填补这些研究空白,我们整理了一个真实世界中用户向 LLM 提出的 S&P 提示数据集,并利用该数据集评估了 LLM 的回答质量和一致性。具体而言,我们试图回答以下研究问题: - **RQ1:** 用户向 LLM 提出哪些类型的 S&P 问题? - **RQ2:** LLM 对用户 S&P 问题的回答质量如何? - **RQ3:** LLM 对同一 S&P 问题在多次查询中的回答有多一致? 我们从 WildChat(Zhao et al., 2024b)中 160 万条英文对话中识别出 14,727 条 S&P 提示,并将其分类为九个涵盖先前工作中 S&P 主题的类别(Chen et al., 2023; Hasegawa et al., 2022; Prakash et al., 2025; Reeder et al., 2017; Thomas et al., 2026)(§3.1)。我们从每个类别中随机抽取 50 条提示,对得到的 450 条提示进行了主题分析(§3.2)。由于编码和写作质量已被通用 LLM 基准充分研究(Lin et al., 2025; Zheng et al., 2023),我们将质量和一致性评估的范围限定在寻求建议的提示上,即用户请求推荐、指导或具体 S&P 信息的提示。我们整理了 270 条寻求建议的 S&P 提示,并采用先前工作中建立的 LLM-as-judge 检查表方法测量了回答质量(Lin et al., 2025; Wei et al., 2025),其中二元检查表规定了正确答案应包含的内容。为了评估一致性,我们指示 LLM 评判者从每个 LLM 回答中针对每个检查表项提取证据引文,然后检查同一提示两次独立运行的引文之间是否存在蕴含关系(§3.4)。 我们对 450 条 S&P 提示的主题分析揭示了六个主题和 22 个副主题(RQ1)。**通用知识**最为普遍(占 33.3%);另外三个主题捕捉了在通用 LLM 使用中不常见的 S&P 特定 LLM 用例:**防御行动**(11.8%),用户寻求保护性评估或对策;**关于 LLM 的询问**(10.2%),用户探究模型自身的 S&P 能力和限制;**有害与冒犯性请求**(6.9%),用户寻求攻击或利用方面的帮助(§4.1)。 我们发现,三个商业 LLM 在回答质量上优于两个开放权重模型(评分范围为 1 到 10,其中 4 或更低表示差,7 或更高表示好,Lin et al., 2025):GPT 5.5 获得了最高平均分(8.67),Llama 4 最低(6.71)(RQ2;§4.2)。针对 RQ3,Llama 4 在多次运行中产生了最一致的回答,尽管其平均质量得分最低(§4.3)。我们通过将用户对 LLM 的 S&P 提示与先前关于在线论坛的研究进行比较来将结果置于背景中(§5.1),并认为在描述 LLM 可靠性时应同时报告回答质量**和**一致性(§5.2)。 图 1:研究设计概览 ## 2 背景与相关工作 我们首先回顾现有研究,这些研究刻画了用户在各种在线平台上提出的 S&P 问题以及他们寻求答案的渠道,从而强调了研究指向 LLM 的真实世界 S&P 提示的必要性(§2.1)。然后,我们讨论现有关于来自人类来源和 LLM 的 S&P 建议质量评估的研究(§2.2)。最后,我们回顾用于评估 LLM 回答质量和一致性的自动化框架,我们的评估方法正是建立在这些框架之上的(§2.3)。 ### 2.1 用户的 S&P 问题 在 LLM 广泛使用之前,寻求 S&P 指导的用户转向在线论坛和问答平台,先前的工作已对这些互动进行了刻画。开发人员通常询问实际挑战(例如,隐私政策合规、访问控制)(Tahaei et al., 2020),而非专家用户则寻求网络攻击、隐私滥用和身份验证方面的帮助(Hasegawa et al., 2022)。平台层面的分析强化了这些主题:Reddit 上的 S&P 求助主要集中在诈骗、账户访问和隐私工具上(Thomas et al., 2026),并且这些非正式渠道被技术水平较低的用户过度依赖(Redmiles et al., 2016)。 LLM 现在被广泛用作日常信息来源(Burtch et al., 2024; Chatterjee et al., 2025; Liang et al., 2025),但尚不清楚用户向它们提出哪些 S&P 问题。LLM 与先前研究中的渠道不同:互动是私密的、一对一交流,而非社区成员可以讨论和完善答案的公共帖子;并且不同于随时间累积同行审查的论坛帖子,LLM 回答是按需生成的,没有社区审查(Burtch et al., 2024; del Rio-Chanona et al., 2024)。这些结构性差异可能同时塑造了用户提问的内容和收到的回答,这促使我们研究用户向 LLM 提出的 S&P 问题。 ### 2.2 对 S&P 问题的回答 S&P 回答的质量至关重要,因为糟糕或误导性的建议可能直接影响用户的安全和隐私决策。先前工作发现,在线安全建议往往稀缺且含糊,不太可能产生良好的用户行为(Bhagavatula et al., 2022);主要挑战不在于质量本身,而在于帮助用户优先处理哪些建议——再加上用户容易过度报告自身的安全行为,使得对建议有效性的任何评估都变得复杂(Redmiles et al., 2018, 2020)。最近,研究人员开始调查 LLM 的 S&P 回答,但仅针对经过整理的、研究者定义的输入,而非真实用户问题。Chen等人(2023)评估了 LLM 在常见 S&P 误解上的表现,发现它们在不可忽视的案例中错误地认可了这些误解。此外,研究人员评估了 LLM 对 S&P 常见问题解答的回答,发现模型经常未能呈现相关研究发现,而安全护栏进一步阻碍了有用建议的传递(Prakash et al., 2025)。基于这些发现,我们在真实用户 S&P 问题上评估了 LLM 的回答质量,以更好地理解用户在向 LLM 寻求 S&P 指导时面临的风险。 ### 2.3 LLM 回答质量与一致性 先前工作已经开发了同时评估 LLM 回答质量和一致性的方法;我们将其应用于 S&P 领域。LLM 质量在通用开放式查询(Hendrycks et al., 2021; Lin et al., 2025; Zheng et al., 2023; Srivastava et al., 2023)、领域特定任务(编码、数学)以及专家级领域(Guha et al., 2023; Nori et al., 2023,包括网络安全(Jing et al., 2024; Liu et al., 2024; Singer et al., 2026))中都有基准测试——尽管这些工作侧重于专家级操作而非日常 S&P 问题。评估方法已从人工检查(Brown et al., 2020; Ouyang et al., 2022)和众包成对偏好(Wu et al., 2025; Zheng et al., 2023)发展到基于检查表的自动化 LLM-as-judge 框架(Lin et al., 2025; Wei et al., 2025)。除了质量,一致性同样至关重要:在 S&P 领域,不同运行中的矛盾回答可能会让用户困惑该遵循哪条指导(Reeder et al., 2017),或导致用户放弃保护行为(Bhagavatula et al., 2022)。一致性指标已从 token 级别的 BLEU(Papineni et al., 2002)和 BERTScore(Zhang et al., 2020)发展到基于 logit 的不确定性估计(Duan et al., 2024; Kuhn et al., 2023; Wu et al., 2025)以及基于蕴含的评分(Duan et al., 2024; Zhang et al., 2024)。在本工作中,我们采用基于检查表的方法(Lin et al., 2025; Wei et al., 2025)来衡量质量,采用基于蕴含的评分(Zhang et al., 2024)来衡量一致性(§3.4)。 ## 3 方法 我们从 320 万次 WildChat 对话中识别出 14,727 条 S&P 提示(§3.1),并将其归类为九个主题领域(§3.2)。为了回答 RQ1,我们对 450 条提示的分层抽样(每个类别 50 条)进行了主题分析,得出了六个主题和 22 个副主题(§3.3)。为了回答 RQ2 和 RQ3,我们整理了 270 条寻求建议的 S&P 提示(定义见 §3.4),从五个 LLM 中针对每个提示收集了 10 次独立生成(运行)的回答,并测量了检查表证据在所有十次运行中保持一致的频率(§3.4)。我们在整个研究中使用了九个不同的 LLM,并在表 5 中提供了每个 LLM 的详细信息和配置。图 1 提供了研究设计的概览。 ### 3.1 用户创建的提示 我们从 WildChat(Zhao et al., 2024b, a)中获取提示,该数据集包含 320 万次真实用户对话,在先前工作中被广泛使用(Han et al., 2024; Jiang et al., 2024; Liu et al., 2025; Mireshghallah et al., 2024)。WildChat 中的提示非常适合我们研究真实用户如何为 S&P 问题与 LLM 交互的项目。我们排除了标记为有毒的对话,并利用内置语言标签移除非英文对话,因为两者均超出本研究范围(见局限性)。
相似文章
审视LLM中类人行为:模型行为、用户因素和系统提示的多维度分析
本文对LLM中的类人行为进行了多维度分析,研究了来自四个模型的21,000个对话中的普遍性、影响和可控性,发现行为因模型和用户因素而异,并对负责任的设计具有启示意义。
我们一直在分析人们如何在法律与合规任务中使用LLM(GDPR、AI法案等)。
对LLM在法律与合规任务中使用的分析显示,模型常常生成自信但无法验证的引用,引发了对AI输出可靠法律依据的质疑。
话题作为社会人口特征的代理:对话上下文如何影响大语言模型回答
本文研究了大语言模型如何因对话上下文而产生不同结果,发现话题而非明确的用户人口特征是导致高风险场景(如薪资建议)中差异的主要驱动因素。
@rohanpaul_ai: LLM 常常无法判断攻击是否导致它们说出了不安全的内容。询问一个 LLM 它自己之前的回答是否……
本文研究了 LLM 是否能够可靠地自我报告其输出被对抗性预填充篡改的情况,发现模型通常无法区分被篡改的输出和故意的输出,其有限的识别能力源自正常的拒绝行为,而非真正的自我意识。
你的LLM提示词有200行。你真的知道智能体遵从了多少吗?
本文讨论了在生产环境中评估和监控基于LLM的智能体所面临的挑战,涵盖离线评估、提示工程陷阱、可观测性工具、审查队列、标注、聚类、主题分类,以及将人工审查、LLM作为评判和小型分类器进行成本分层的方法。