ArcANE:角色扮演语言智能体能否在恰当时间保持角色一致性?

Hugging Face Daily Papers 论文

摘要

本文介绍ArcANE,一个自动构建的基准测试,用于评估角色扮演语言智能体在叙事阶段中与角色心理轨迹的一致性。研究表明,基于角色弧信息进行条件化能提升性能,尤其是在超出源文本的场景中。

角色扮演语言智能体(RPLAs)应扮演随故事发展价值观和行为发生演变的角色,而非保持固定人设。现有基准测试衡量的是给定章节的事实回忆,而非回答是否与角色心理轨迹一致,尤其是在源文本未探索的场景中。我们提出ArcANE(弧感知叙事评估),一个自动构建的基准测试,涵盖17部小说和80个主要角色。角色弧(Character Arc)将叙事沿心理轴划分为多个阶段,每个探针在不同阶段提出相同场景,涵盖源文本内外的情形。在六个模型和六种上下文模式下,基于角色弧进行条件化在每个模型上均优于其他所有上下文策略,在检索无果的源文本外场景中差距最大。我们进一步在同数据上微调开放权重模型,得到ArcANE-8B/32B,在源文本外场景中进一步扩大了角色弧的优势。
查看原文
查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - ArcANE:角色扮演语言代理能在正确时机保持角色吗?

来源:https://huggingface.co/papers/2606.05553

摘要

角色扮演语言代理需要随着叙事推进而进行动态角色发展,这要求基准评估关注心理轨迹对齐而非静态事实回忆,而ArcANE在将角色弧信息注入模型时展现了更优性能。

角色扮演语言代理(https://huggingface.co/papers?q=Role-playing%20language%20agents)(RPLAs)应当扮演随着故事推进而价值观和行为发生演变的角色,而非保持固定的人格。现有基准衡量的是特定章节的事实回忆,而非回答是否与角色的心理轨迹(https://huggingface.co/papers?q=psychological%20trajectory)一致,尤其是在源文本从未探索的场景中。我们引入了ArcANE(弧线感知叙事评估(https://huggingface.co/papers?q=Narrative%20Evaluation)),这是一个自动构建的基准,涵盖17部小说和80个主要角色。角色弧光(https://huggingface.co/papers?q=Character%20Arc)将叙事沿心理轴划分为多个阶段,每个探针跨阶段提出相同场景,涵盖源文本内和源文本外的情况。在六个模型和六种上下文模式下,基于角色弧光(https://huggingface.co/papers?q=Character%20Arc)的条件设置在每种模型上都优于其他所有上下文策略,并且在源文本外(检索无果)的场景中差距最大。我们进一步对相同数据微调开源权重模型(https://huggingface.co/papers?q=open-weight%20models),得到ArcANE-8B/32B,这些模型在源文本外的场景中进一步扩大了弧线优势。

查看 arXiv 页面(https://arxiv.org/abs/2606.05553)查看 PDF(https://arxiv.org/pdf/2606.05553)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.05553)

引用该论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。

引用该论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。

引用该论文的 Space 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。

包含该论文的收藏 0

没有收藏包含此论文

将该论文添加到收藏(https://huggingface.co/new-collection)以从本页面链接。

相似文章

角色扮演时,模型是否相信自己所说的话?

arXiv cs.CL

这篇论文通过线性探针研究角色扮演是否仅改变LLM的输出,还是也改变了其内部的真实性表征。研究发现,角色扮演对输出的改变大于对内部信念的改变,而涌现性错位则导致内部表征发生更大变化。