ArcANE:角色扮演语言智能体能否在恰当时间保持角色一致性?
摘要
本文介绍ArcANE,一个自动构建的基准测试,用于评估角色扮演语言智能体在叙事阶段中与角色心理轨迹的一致性。研究表明,基于角色弧信息进行条件化能提升性能,尤其是在超出源文本的场景中。
查看缓存全文
缓存时间: 2026/06/05 06:07
论文页面 - ArcANE:角色扮演语言代理能在正确时机保持角色吗?
来源:https://huggingface.co/papers/2606.05553
摘要
角色扮演语言代理需要随着叙事推进而进行动态角色发展,这要求基准评估关注心理轨迹对齐而非静态事实回忆,而ArcANE在将角色弧信息注入模型时展现了更优性能。
角色扮演语言代理(https://huggingface.co/papers?q=Role-playing%20language%20agents)(RPLAs)应当扮演随着故事推进而价值观和行为发生演变的角色,而非保持固定的人格。现有基准衡量的是特定章节的事实回忆,而非回答是否与角色的心理轨迹(https://huggingface.co/papers?q=psychological%20trajectory)一致,尤其是在源文本从未探索的场景中。我们引入了ArcANE(弧线感知叙事评估(https://huggingface.co/papers?q=Narrative%20Evaluation)),这是一个自动构建的基准,涵盖17部小说和80个主要角色。角色弧光(https://huggingface.co/papers?q=Character%20Arc)将叙事沿心理轴划分为多个阶段,每个探针跨阶段提出相同场景,涵盖源文本内和源文本外的情况。在六个模型和六种上下文模式下,基于角色弧光(https://huggingface.co/papers?q=Character%20Arc)的条件设置在每种模型上都优于其他所有上下文策略,并且在源文本外(检索无果)的场景中差距最大。我们进一步对相同数据微调开源权重模型(https://huggingface.co/papers?q=open-weight%20models),得到ArcANE-8B/32B,这些模型在源文本外的场景中进一步扩大了弧线优势。
查看 arXiv 页面(https://arxiv.org/abs/2606.05553)查看 PDF(https://arxiv.org/pdf/2606.05553)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05553)
引用该论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。
引用该论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。
引用该论文的 Space 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。
包含该论文的收藏 0
没有收藏包含此论文
将该论文添加到收藏(https://huggingface.co/new-collection)以从本页面链接。
相似文章
PersonaArena:用于评估和增强大语言模型中人格层面角色扮演的动态模拟框架
PersonaArena 是一个动态模拟框架,利用大规模社交内容语料库和多智能体辩论评判机制,评估并提升大语言模型在真实社交场景中保持连贯且真实的人格层面角色扮演能力。
DynSess:面向角色扮演代理的动态会话级别评估与优化框架
本文提出了 DynSess,一个用于角色扮演代理的统一会话级别评估与优化框架。该框架通过评分完整对话会话来解决回合级别指标的局限性,并利用会话级别奖励训练更具一致性的角色模型。
扮演真正的研究者:一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。
角色扮演时,模型是否相信自己所说的话?
这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出,还是也改变了其内部的真实性表征。研究发现,角色扮演对输出的改变大于对内部信念的改变,而涌现性错位则导致内部表征发生更大变化。
NARRA-Gym:用于评估交互式叙事智能体的基准
本文介绍了 NARRA-Gym,这是一个基准和可执行评估环境,用于评估大型语言模型在多轮对话中维持交互式叙事、管理记忆以及适应用户的能力。