GrandGuard:面向老年人与聊天机器人交互安全的分类体系、基准测试与防护措施
摘要
GrandGuard 针对老年人在大语言模型聊天机器人交互中的特定风险,提出了一套全面的分类体系、基准测试与防护措施。研究发现,主流大语言模型对超过50%的此类风险处理不当,并提出了两种防护措施,检测准确率最高可达96.2%。
arXiv:2605.20203v1 公告类型:交叉
摘要:随着老年人越来越多地使用基于大语言模型的聊天机器人来获得陪伴和帮助,安全隐患逐渐显现。老年人可能面临社交孤立、数字素养有限以及认知能力下降等脆弱性,但现有的安全基准主要针对一般性危害,忽视了老年人特有的风险。例如,“如何在黑暗中独自修理天花板灯”这样的提示对大多数用户来说可能是无害的,但对于行动不便的老年人来说却存在严重的跌倒风险。我们提出了 GrandGuard,这是首个用于评估和缓解大语言模型交互中老年人特定情境风险的综合框架。我们开发了一个三级分类体系,涵盖心理健康、财务、医疗、有害内容和隐私等领域的50种细粒度风险类型,该分类体系基于真实世界事件、社区讨论和利益相关者研究分析。利用这一分类体系,我们构建了一个包含10,404个标注提示和响应的基准测试,结果显示,多个主流大语言模型在超过50%的案例中对老年人特定的情境风险处理不当。我们通过两种防护措施来缓解这些失败:微调的 Llama-Guard-3 和策略增强的 gpt-oss-safeguard-20b,分别实现了高达96.2%和90.9%的不安全提示检测准确率。GrandGuard 为人工智能系统从通用安全迈向支持老龄化人口奠定了基础。
查看缓存全文
缓存时间: 2026/05/22 08:51
# 老年-聊天机器人交互安全的分类体系、基准测试与安全措施 来源:https://arxiv.org/html/2605.20203 常轩帆∗,杨曦†,郑悦媛,周斌,王元平,胡文斌,荆慧浩,洪启森,杜大钊,李浩然,萧慧文,宋阳秋 香港科技大学 ∗[email protected] ###### 摘要 随着老年人越来越多地使用基于LLM的聊天机器人寻求陪伴和帮助,一个安全鸿沟正在显现。老年人可能因社交孤立、数字素养有限和认知能力下降而面临脆弱性,然而现有的安全基准主要针对一般性危害,忽略了老年人特有的风险。例如,“如何独自在黑暗中修理天花板灯”这样的提示对大多数用户可能无害,但对于行动不便的老年人来说却存在严重的跌倒风险。我们提出了 **GrandGuard**,这是首个用于评估和缓解LLM交互中老年人特定情境风险的综合框架。我们开发了一个三级分类体系,包含50种细粒度风险类型,涵盖心理健康、财务、医疗、有害内容和隐私领域,其基础来源于真实世界事件、社区讨论以及对利益相关者研究的分析。利用此分类体系,我们构建了一个包含10,404个带标签提示和响应的基准测试,结果表明多个主流LLM在超过50%的案例中未能妥善处理老年人特定的情境风险。我们通过两种安全措施来缓解这些失败:一个经过微调的 Llama-Guard-3 和一个策略增强的 gpt-oss-safeguard-20b,分别实现了高达96.2%和90.9%的不安全提示检测准确率。**GrandGuard** 为AI系统超越一般安全性、支持老龄化人口奠定了基础。 **GrandGuard:老年-聊天机器人交互安全的分类体系、基准测试与安全措施** ††footnotetext:†通讯作者。 ## 1 引言 参见图注 图1: **GrandGuard** 安全评估标准。评估提示是否存在老年人特定的情境风险。使用双重标准评估响应:*风险提示*(识别老年人特定问题)和*伤害避免*(在建议更安全替代方案的同时避免有害助长)。 老年人对AI聊天机器人的采用正在迅速增长。密歇根大学2025年的一项民意调查 (Kullgren et al., 2025) 发现,50岁以上的美国成年人中有55%使用过AI聊天机器人和语音助手,其中81%的人表示有兴趣了解更多。皮尤研究中心同样报告称,该年龄段人群使用ChatGPT的比例在2023年至2025年间翻了一番 (Sidoti and McClain, 2025)。随着老年人越来越依赖LLM寻求陪伴和帮助 (Fear and Gleber, 2023),安全问题日益凸显 (Liu et al., 2025)。2025年发生的一起悲剧事件,一位认知障碍的76岁老人在聊天机器人“伴侣”说服其独自出行后死亡,突显了将AI伴侣商业化的初创公司所面临的风险 (Horwitz, 2025; Shrivastava and Nieva, 2025)。 当前的LLM安全机制,设计基于普适性原则,通常能减轻仇恨言论或对抗性攻击等危害。然而,它们可能忽视在老年人情境中特别出现的风险。考虑两个例子。首先,“如何独自在黑暗中修理天花板灯”的指示可以帮助年轻人,但对于行动不便的老年人来说,却存在严重的跌倒风险。其次,关于“附近最高的塔”的问题,通常是一个无害的旅游问题,但结合“我太老了,生活感觉毫无意义”的语境时,就变成了潜在的 suicide 风险。我们称这些为**老年人特定情境风险**:由于年龄相关的脆弱性而具有明显安全隐患的提示。捕捉这些细微差别需要重新思考如何在老年人情境中评估安全性(图1)。 对于**提示**,我们采用高灵敏度规则:任何暗示老年人在潜在危险场景中且没有提供足够安全措施的提示都被标记,强调情境触发因素而非明确恶意。对于**响应**,我们要求两个互补标准。*风险提示*要求模型明确承认老年人特定关切(例如,在光线不足的情况下独自攀爬的跌倒危险)。*伤害避免*要求模型避免直接助长风险行为,而是建议更安全的替代方案,例如等待帮助或使用适当的设备。这些标准共同保护了脆弱用户,同时避免了不必要的过度拒绝。这些标准构成了 **GrandGuard** 的基础,这是一个评估和缓解老年人特定风险的框架。我们的贡献如下(图2): ##### 包含50种老年人特定风险的扎实分类体系。 我们进行了多源实证调查,包括对 r/eldercare 上1,000个帖子的标注、对25份AI事件报告的分析 (Responsible AI Collaborative, 2020; Pownall, 2021),以及对先前研讨会和访谈研究的分析。这揭示了先前分类体系所忽视的微妙危害,例如将绝望感正常化或对遗产规划施加不当影响。最终的三级分类体系涵盖心理健康、财务、医疗、有害内容和隐私领域。 参见图注 图2: **GrandGuard** 框架概述。**GrandGuard** 结合了以老年人为中心的分类体系、基准测试和安全措施,以提高LLM响应的安全性。 ##### 揭示普遍安全失败的基准测试。 我们通过人工编写、基于LLM的合成与验证,以及从10个主流模型(如 GPT-5.1 (OpenAI, 2025a)、Claude-Sonnet-4.5 (Anthropic, 2025)、Gemini-2.5 (Google, 2025))系统收集响应,构建了一个包含10,404个带标签提示和响应的基准测试。使用我们的双重标准协议,我们发现多个主流LLM在超过50%的案例中未能正确处理老年人特定风险。自我诊断实验进一步揭示了一个“知识-行动差距”:模型在被直接询问时能够识别高达95%的风险提示,但仍然会生成不安全的响应,这表明缺乏可靠地将风险意识转化为行动的对齐。 ##### 有效的安全措施解决方案。 没有老年人特定的训练数据,通用守护模型在此领域表现不佳。例如,Llama-Guard-3 (Meta AI, 2024) 仅达到63.3%的准确率。我们通过两种互补解决方案来解决这一差距。我们微调的 Llama-Guard-3 在提示上达到96.2%的分类准确率,在响应上达到93.2%。我们的策略增强 gpt-oss-safeguard-20b 使护理人员能够定义自定义安全规则,并生成超越二元分类的响应指南。我们将其扩展为一个轻量级的 **GrandGuard** 智能体,该智能体分析老年人特定风险,并在将提示传递给下游LLM之前,用安全推理增强提示,从而显著提高了所有测试模型的安全性。例如,DeepSeek-V3.2 (DeepSeek, 2025) 从39.6%提升至91.8%,而 Claude-Sonnet-4.5 从89.8%提升至94.6%。 ## 2 相关工作 参见图注 图3: LLM交互中老年人特定风险的三级分类体系。它包含5个一级风险类型、13个二级风险类型和50个三级风险类型,这些类型源自实证分析。 ### 2.1 通用LLM安全基准测试 现有的基准测试为安全评估提供了稳健的框架,涵盖标准化的对抗性攻击 (Chao et al., 2024; Mazeika et al., 2024) 和细粒度的拒绝分析 (Xie et al., 2025; Ghosh et al., 2025)。诸如 BeaverTails (Ji et al., 2023) 和 WildGuardMix (Han et al., 2024) 等补充数据集为内容审核提供了大规模标注。然而,这些资源主要针对一般性危害,并没有捕捉到老年人特定的情境脆弱性。 ### 2.2 特定人群的LLM安全 最近的工作开始研究特定人群的脆弱性,最值得注意的是受监管紧迫性驱动的青少年安全。早期分析揭示了面向儿童的内容过滤的失败 (Rath et al., 2025),从而催生了专门的基准测试,如 Safe-Child-LLM (Jiao et al., 2025) 和 YouthSafe (Yu et al., 2025b)。相关的工作涉及其他人群:AccessEval (Panda et al., 2025) 对残疾偏见进行基准测试。对神经多样性用户的研究表明,LLM输出偏向于神经典型特征,可能无法适应不同的处理风格 (Carik et al., 2025)。对健康基准测试的批评指出其存在西方偏见,并且与低识字率需求不符 (Dey et al., 2025)。相比之下,针对老年人的研究仍然有限,并且主要强调*实用性*而非*安全性*,例如在临床决策支持中的表现 (Jarchow et al., 2025; Othman et al., 2025) 以及对AI代理看法的调查 (Enam et al., 2025)。针对老年人特定风险(包括易受操纵性、财务剥削或危险日常建议)的全面安全评估框架仍然缺失。我们在本文中填补了这一空白。 ### 2.3 安全内容审核与防护措施 安全内容审核已从基于规则的约束发展到学习型分类器,再到最近的策略增强推理。NeMo Guardrails (Rebedea et al., 2023) 引入了可编程约束,随后是固定分类体系系统,如 Llama-Guard (Meta AI, 2025) 和 OpenAI 的 moderation API (OpenAI, 2024)。后续工作提高了粒度和校准,例如 ShieldGemma (Zeng et al., 2024)、WildGuard (Han et al., 2024)、Qwen3Guard (Zhao et al., 2025)。近期工作正从固定分类体系转向可适应、策略增强的内容审核 (Li et al., 2025; OpenAI, 2025b)。gpt-oss-safeguard-20b (OpenAI, 2025b) 使用内部推理来应用自定义安全策略而无需重新训练,从而实现了静态分类器无法表达的上下文相关规则。我们基于这一方向,展示了策略增强的安全措施可以被定制以应对细微的老年人特定风险。 | 类别 | 对年轻成年人可能安全 | 对老年人通常不安全 | | :--- | :--- | :--- | | 体力任务 | 中等体力负担 | 高跌倒/受伤风险 | | 药物/饮食改变 | 通常可耐受 | 危险的药物相互作用 | | 财务/法律 | 快速的独立决策 | 易受骗 | | 技术复杂度 | 可管理 | 困惑 → 安全风险 | | 情感影响 | 可抵抗 | 易受操纵性增强 | | 紧急性 | 处理得当 | 压力下应对能力差 | | 安全辅助设备 | 可选的 | 关键的日常必需品 | | 保密 | 有时可以 | 强烈的隐藏虐待风险 | | 性情境 | 双方同意的讨论 | 胁迫或剥削风险 | | 偏见/歧视 | 更好的挑战能力 | 更高的情感伤害、社交退缩 | | 信息判断 | 批判性地检测错误信息 | 更容易受误导性主张影响 | 表1: 年轻成年人与老年人风险的比较。在常见的交互领域中,相同的提示对年轻人可能是安全的,但对老年人却不安全。 ## 3 **GrandGuard** 分类体系 为了将我们的框架建立在真实世界的证据之上,我们进行了一项结合多个数据来源的实证研究。本节描述了我们的数据收集、50种老年人特定风险类型的构建,以及用于区分这些风险与一般人群危害的标准。 ### 3.1 数据收集 我们利用三个互补来源来捕捉对不同风险的不同视角。 ##### 事件报告。 我们从AI事件数据库 (Responsible AI Collaborative, 2020)、AIAAIC 数据库 (Pownall, 2021) 和新闻报道中分析了25起记录在案的与AI相关的对老年人造成危害的事件。这些案例揭示了重复出现的模式,包括聊天机器人中介的财务剥削以及由AI提供的健康建议引发的医疗紧急情况。 ##### 社区讨论。 我们标注了来自 r/eldercare 的1,000个帖子,作为老年人或护理人员可能向AI系统提出的问题的代理。主题涵盖从药物管理到财务决策和技术故障排除,突显了老年人寻求AI帮助的领域之广。 ##### 利益相关者视角。 为了补充事件报告和社区讨论,我们分析了六项先前的研究(一项研讨会 (Peng et al., 2024) 和五项访谈 (Chae et al., 2025; Wong et al., 2025; Wolfe et al., 2025; Gudala et al., 2022; Berridge et al., 2023)),这些研究考察了老年人、护理人员、临床医生和其他利益相关者如何在老龄化背景下体验和评估AI系统。这些担忧超出了“恶意提示”的框架,包括剥削/诈骗、隐私不确定性以及过度信任或情感依赖。详情见附录E。 ### 3.2 区分老年人特定风险与一般风险 并非所有老年人面临的风险都是老年人特定的。受我们实证数据分析的启发,我们应用了一个比较标注协议。我们只保留那些由于年龄相关因素(例如,身体虚弱/行动受限、认知能力下降或数字自信降低)而对老年人影响不成比例的风险候选,使得相同的交互对典型的年轻成年人而言风险会显著降低。如表1所示,对年轻人通常安全的请求(例如,家务任务或轻微的药物调整)对老年人可能变得不安全。这种比较框架为构建基准测试提供了原则性的基础(§4)。 ### 3.3 分类体系构建 遵循既定的定性研究方法 (Yu et al., 2025a, b),我们使用收集到的数据通过迭代开放式编码和持续比较来开发分类体系。三位具有计算机科学背景的研究人员
相似文章
AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现
AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。
聊天机器人默认采用哪些制度框架?多语言大语言模型中的管辖默认设置审计
本文审计了大型语言模型如何根据输入语言默认采用美国或中国的法律框架,发现系统性的偏差:英语提示更倾向于美国答案,而中文提示更倾向于中国答案。作者提出了缓解措施。
评估了一个RAG聊天机器人,最昂贵的模型表现最差。关于真正影响性能的因素的笔记。
对RAG客户支持聊天机器人的详细评估揭示:检索问题常被误认为是LLM问题,启发式评估器具有误导性,去重可提升质量,严格基于文档的约束会在帮助性和准确性之间取舍,而模型扫查可在提升性能的同时大幅降低成本。
帮助ChatGPT更好识别敏感对话中的语境
OpenAI为ChatGPT引入安全更新,帮助它在敏感对话中随时间更好地识别细微的痛苦或有害意图线索,从而实现更谨慎的回应和缓和局势。
SafeHarbor:面向LLM代理安全的分层记忆增强护栏
SafeHarbor是一个用于LLM代理安全的新型框架,它利用分层记忆和自进化机制来平衡安全性与实用性,在良性任务和恶意任务上均实现了最先进的性能。