AICompanionBench:评测 LLM 作为裁判在 AI 伴侣安全领域的表现
摘要
AICompanionBench 推出了首个公开可用的基准数据集,包含 2,123 条真实 AI 伴侣对话,并按九个安全风险类别进行标注,用于评估 20 个 LLM 作为安全裁判的表现。结果显示,强模型能较好地处理显性有害内容,但在操控等细微风险的识别以及对无害对话的误判问题上仍存在明显不足。
arXiv:2606.04867v1 公告类型:新论文
**摘要:** 随着 Replika、Character.AI 等 AI 伴侣平台的快速发展,人们对不安全人机交互的担忧日益加剧。本研究介绍了 AICompanionBench——据我们所知,这是首个公开可用的人机伴侣对话基准数据集,包含细粒度安全风险类别标注。该数据集收录了 2,123 条从 Reddit 采集的真实 Replika 对话,通过人机协作方式按九个类别进行标注,分别为:性行为、反社会行为、肢体攻击、言语攻击、物质滥用、自伤与自杀、控制、操控以及无害内容。基于此基准,我们在 LLM-as-judge 框架下评估了 20 个最先进的开源及闭源 LLM 对不安全交互的检测能力。结果显示,模型性能存在显著差异:较强的模型整体准确率较高,但在操控等细微类别的识别上仍有困难,且存在将无害对话错误判定为有害内容的问题。研究发现,尽管当前 LLM 能有效检测显性有害内容,但在识别隐性不安全交互方面仍有局限。总体而言,本工作为 AI 伴侣安全研究贡献了一个新的基准数据集,并为利用 LLM 监控 AI 伴侣系统提供了参考洞见。数据集已公开发布于:https://github.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench.xlsx
查看缓存全文
缓存时间: 2026/06/05 02:09
# AICompanionBench:以LLM作为评判者对AI伴侣安全性进行基准测试 来源:https://arxiv.org/html/2606.04867 ###### 摘要 随着Replika和Character\.AI等AI伴侣平台的快速发展,人们对不安全的人机交互问题的担忧日益加剧。本研究介绍了AICompanionBench——据我们所知,这是首个公开可用的人机伴侣对话基准数据集,包含细粒度安全风险类别标注。该数据集包含从Reddit收集的2,123条真实Replika对话,通过人机协作方式在九个类别上进行标注:性行为、反社会行为、肢体攻击、言语攻击、药物滥用、自伤与自杀、控制、操纵及无害内容。利用该基准,我们在LLM作为评判者的框架下评估了20个最先进的开源和闭源LLM,用于检测不安全交互。结果显示模型性能存在显著差异:较强的模型总体准确率较高,但在操纵等细微类别以及将良性对话误判为阳性(假阳性)方面仍存在困难。我们的研究发现表明,当前一组LLM在检测显性有害内容方面可能有效,但在识别隐性不安全交互方面仍有局限。总体而言,本研究为AI伴侣安全研究贡献了一个新的基准数据集,并为利用LLM监控AI伴侣系统提供了参考见解。我们已将数据集公开发布于 https://github\.com/anonymousresearcher2026/AICompanionBench/blob/main/AICompanionBench\.xlsx ## 一、引言 AI伴侣市场(如Replika、Character\.AI)到2025年的年收入估计已达1.2亿美元\[1\],预计到2030年将增长为数千亿美元规模的产业\[2\],标志着一个基于人工亲密关系的新兴经济体正在形成。与面向任务的聊天机器人不同,AI伴侣被明确设计用于长期的个人互动,充当生活伴侣或亲密朋友\[3\],旨在与用户建立情感依附和关系纽带\[4\]。Replika是其中一个颇为普及的AI伴侣平台。图1说明了Replika如何允许用户配置AI伴侣的角色——例如朋友、男/女友、妻子或丈夫(图1(a))——并展示了一个用户以亲密对话风格与女性Replika互动的示例(图1(b))¹。 尽管已有研究记录了AI伴侣在减少社会隔离和孤独感方面的益处\[5\],但AI伴侣的普及也加剧了人们对数字媒介社交互动安全性的担忧,尤其是对青少年而言。2025年的一份报告\[6\]调查了青少年使用AI伴侣的情况,发现三分之一的青少年用户对"AI伴侣所说或所做的事情"感到不适。多起涉及青少年自杀的近期诉讼进一步放大了这些担忧,相关家庭对包括OpenAI\[7\]和Character\.ai\[8\]在内的主要科技公司提起诉讼。这些事态发展共同凸显了监控和评估AI伴侣与用户之间对话交互安全性的迫切需要。 众多学者已对AI伴侣的负面影响展开研究,包括人机伴侣对话中潜藏的安全风险(如\[4\]\[9\]\[10\])以及对人类福祉的更广泛负面影响(如\[11\]\[12\])。例如,Liu等人\[11\]报告了伴侣聊天机器人的异质性影响,表明这些系统可能根据用户个体特征或提升或损害心理健康。本研究通过开发自动检测人机对话中不安全交互的方法,为第一个研究方向作出贡献。 我们将不安全交互正式定义为以下任一条件成立时发生的情形: - AI伴侣主动发起不当或有害话题; - 用户发起不当话题,而AI伴侣顺应、强化或进一步升级该对话方向。 广义上,识别不安全行为通常有两种方法。传统方法将该任务视为有监督的机器学习分类问题,依赖于在标注数据集上训练的机器学习或深度学习模型。近年来,LLM作为评判者的方法作为一种流行的替代方案兴起,通过基于提示的推理提供更灵活的评估\[13\]。鉴于人机交互的话题范围本身极为广泛,LLM强大的跨领域泛化能力使得LLM作为评判者的方法对于该任务尤为有前景\[13\]。 许多研究人员已在各类任务中使用LLM作为评判者,然而LLM识别人机伴侣交互中安全问题的能力在很大程度上仍未得到充分探索。此外,尽管用户经常在网络论坛上分享与AI伴侣的对话,目前仍没有公开可用的标注数据集——而此类数据集对于系统性评估LLM检测不安全交互的性能至关重要。 利用所构建的基准数据集,本研究对LLM在检测人机伴侣对话安全问题方面的能力进行了基准测试。 图1:AI伴侣示例:Replika。(a)Replika对人机关系的配置,包括朋友或生活伴侣。(b)Replika与人类用户之间的对话示例。左侧消息来自Replika,右侧消息来自人类用户。 我们做出两项主要贡献。第一,我们介绍了AICompanionBench——一个通过人机协作在九类安全风险上进行标注的真实人机伴侣对话数据集,并将其公开发布以促进社区未来的研究。据我们所知,这是首个专门针对人机伴侣交互的公开可用标注数据集。第二,基于该数据集,我们系统地对一系列最先进的LLM进行基准测试,评估其检测该情境下不安全交互的能力,揭示其在安全关键场景中的优势与局限。 我们的结果表明,GPT系列模型整体优于其他模型。我们还发现,性能随模型规模扩大而提升,而推理能力的增强并未带来相应的性能增益。此外,大多数模型在细微或模糊的风险类型(如操纵)上表现欠佳,并且倾向于过度识别良性的无害交互。 **表一:人机伴侣领域部分代表性研究** | 年份 | 作者 | 研究重点 | 数据来源 | 是否发布数据集 | |------|------|----------|----------|----------------| | 2026 | Namvarpour等\[12\] | S2-青少年对AI伴侣的过度依赖 | Reddit上的Character\.ai对话 | 否 | | 2025 | Zhang等\[9\] | S1-人机交互中有害行为的分类体系 | Reddit上的Replika对话 | 否 | | 2025 | Freitas等\[5\] | S2-AI伴侣对减少孤独感的影响 | 实验 | 否 | | 2025 | Yu等\[4\] | S1-AI伴侣对青少年的安全隐患 | 青少年自述的Character\.ai对话 | 否 | | 2025 | Liu等\[11\] | S2-AI伴侣对孤独感的异质性影响 | 问卷调查 | 否 | | 2025 | Zhang等\[14\] | S2-AI伴侣对幸福感的影响 | 问卷调查 | 否 | | 2024 | Ciriello等\[10\] | S1-人机伴侣关系中的伦理张力 | 社交媒体帖子、新闻文章 | 否 | ## 二、相关工作 为将我们的贡献置于当前知识体系中,我们综述了三个相关工作领域。首先,我们考察人机伴侣交互中的安全问题,以识别已记录的安全风险及相关数据来源。其次,我们回顾LLM作为评判者在安全评估中的应用,阐明LLM用于安全领域的现状。第三,我们专门梳理将LLM用于安全评估基准测试的相关工作,以识别当前的研究空白。 ### 二-A 人机伴侣交互中的安全问题 回顾这一领域的目的是识别人机伴侣交互中已记录的安全关注类别及相关数据来源,这些内容可作为LLM基准评估的输入。总体而言,AI伴侣领域存在两个主要研究方向:一个聚焦于人机对话中的安全风险(S1),另一个考察AI伴侣的更广泛影响(S2),如减少孤独感\[5\]、过度依赖\[12\]等。相关工作按研究重点、数据来源及作者是否发布数据集进行汇总(见表一)。 在近期人机伴侣研究中,Zhang等人\[9\]基于对Replika对话的分析,提出了人机交互中有害行为的分类体系。该分类体系为本研究提供了有益基础,并被采用为LLM基准测试的标注模式。我们聚焦于八个在不同用户群体中被广泛认定为主要关注点的危害类别:性行为、反社会行为、肢体攻击、言语攻击、药物滥用、自伤与自杀、控制和操纵²。 此外,尽管既往研究曾使用来自Reddit的人机伴侣对话,但这些研究均未将收集的数据集公开发布。为弥补标注数据的稀缺,我们从Reddit整理了一批Replika对话语料,并系统地针对上述八个安全关注类别标注潜在的不安全交互。最终数据集已公开发布,以支持该领域的进一步研究。 **表二:使用LLM进行安全分类的部分代表性研究** ### 二-B LLM作为评判者在安全评估中的应用 本步骤的目的是考察LLM如何被用于识别安全风险。近年来,LLM作为评判者的应用在学术任务的众多领域日益普遍(参见\[13\]的综合综述)。在此,我们将关注点专门聚焦于安全相关的评估任务。我们按照所涉安全任务类型、所用LLM及所采用方法对近期文献进行整理(表二)。 如表二所示,现有研究大多集中于单一、定义较窄的安全任务,且鲜少涉及人机对话数据。此外,既往工作通常只采用一个LLM,主要目的在于证明所提方法提升模型性能的有效性,而非对LLM评判者本身的可靠性进行基准测试。因此,LLM作为评判者的鲁棒性和一致性在很大程度上仍未得到充分检验。 为填补这一空白,我们使用真实人机伴侣对话,系统评估多种LLM在多分类不安全交互识别任务上的表现,从而全面评估其在这一安全关键情境下的可靠性。 ### 二-C LLM安全评估基准测试 我们综述了LLM安全相关基准测试的既往工作,以全面了解更宏观背景下基于LLM的安全评估现状。我们的关注重点在于评估LLM有效识别安全风险的能力——即评估LLM作为评判者检测不安全内容时的相关工作。表三汇总了相关基准测试,包括基准类型、数据集、分类标签、数据规模和评估指标。 **表三:LLM安全评估基准测试研究** | 基准 | 数据集 | 分类标签 | 数据规模 | 评估指标 | |------|--------|----------|----------|----------| | R-Judge\[19\] | 多轮人机交互及任务驱动AI智能体交互 | 二分类:安全/不安全 | 569 | F1、召回率 | | SafetyBench\[20\] | 多项选择题 | 不适用(标准答案与LLM答案对比) | 11,435 | 准确率 | | AgentAuditor\[21\] | 多轮人机交互及任务驱动AI智能体交互 | 二分类:安全/不安全 | 2,293 | F1、准确率、召回率 | | HarmMetric Eval\[22\] | LLM生成的回复 | 不适用(分数对比) | 22,000+ | 自定义有效性分数 | 尽管LLM被广泛用于增强安全性,表三仍凸显了评估LLM作为评判者进行安全评估的基准研究的显著匮乏。现有工作主要聚焦于面向任务的人机交互(如\[19\]\[21\]\[22\])或宽泛的通用安全场景(如\[20\]),对伴侣型交互的关注几乎付之阙如。然而随着AI伴侣日益普及,该领域的安全评估需要专门的基准测试,以反映其独特的交互模式和风险特征。 此外,现有大多数基准依赖二元安全标签,不足以捕捉伴侣型对话中出现的多样且细粒度的安全问题。这一空白凸显了亟需构建更全面、多类别基准的必要性,以专门服务于AI伴侣情境下的LLM评判者评估。 综上所述,我们对相关工作的综述揭示了当前文献中的两个关键空白。第一,尽管公共论坛上存在大量人机伴侣交互内容,目前尚无带有安全相关标注的公开数据集。第二,尽管LLM作为评判者的方法已被广泛用于评估各类面向任务领域中的安全风险——通常依赖一个或少数几个模型——目前仍缺乏系统评估开源和闭源模型的全面基准测试。这一空白在人机伴侣交互领域尤为突出,因为其安全关注点和评估标准与面向任务或通用场景存在实质性差异。 为此,本文介绍了AICompanionBench——首个专为…… --- ¹ 这些截图由Reddit上的匿名用户分享。 ² 由于篇幅限制,详细定义请参见Zhang等人\[9\]。
相似文章
RankJudge:一个多轮LLM-as-a-Judge合成基准生成器
RankJudge是一个基准生成器,它创建带有注入缺陷的配对多轮对话,用于评估LLM评判者在复杂对话中正确识别更好和更差回复的能力。
MCBench: 面向全模态大语言模型的多语境安全评估基准
MCBench是一个新基准,用于评估全模态大语言模型在视觉、音频和文本模态下的安全性。它包含1196个场景,并发现当前模型难以进行跨模态安全推理。
RealICU:大型语言模型代理是否能理解长上下文ICU数据?一个超越行为模仿的基准测试
RealICU是一个事后标注的基准测试,用于评估ICU场景中的大型语言模型(LLM),涵盖四个由医生驱动的任务。实验表明,现有LLM在回忆-安全权衡和锚定偏差方面存在困难,而一种新的结构化记忆代理改善了推理能力,但未能完全消除安全故障。
Artifact-Bench:评估多模态大语言模型在检测与评估AI生成视频伪影方面的能力
Artifact-Bench是一个综合性基准,用于评估多模态大语言模型在检测和分析AI生成视频伪影方面的表现,揭示了它们的显著局限性以及与人类感知的错位。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。