ArcANE：角色扮演语言智能体能否在恰当时间保持角色一致性？

Hugging Face Daily Papers 2026/06/04 00:00 论文

role-playing language-agents character-arc narrative-evaluation benchmark fine-tuning

摘要

本文介绍ArcANE，一个自动构建的基准测试，用于评估角色扮演语言智能体在叙事阶段中与角色心理轨迹的一致性。研究表明，基于角色弧信息进行条件化能提升性能，尤其是在超出源文本的场景中。

角色扮演语言智能体（RPLAs）应扮演随故事发展价值观和行为发生演变的角色，而非保持固定人设。现有基准测试衡量的是给定章节的事实回忆，而非回答是否与角色心理轨迹一致，尤其是在源文本未探索的场景中。我们提出ArcANE（弧感知叙事评估），一个自动构建的基准测试，涵盖17部小说和80个主要角色。角色弧（Character Arc）将叙事沿心理轴划分为多个阶段，每个探针在不同阶段提出相同场景，涵盖源文本内外的情形。在六个模型和六种上下文模式下，基于角色弧进行条件化在每个模型上均优于其他所有上下文策略，在检索无果的源文本外场景中差距最大。我们进一步在同数据上微调开放权重模型，得到ArcANE-8B/32B，在源文本外场景中进一步扩大了角色弧的优势。

查看原文

查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - ArcANE：角色扮演语言代理能在正确时机保持角色吗？

来源：https://huggingface.co/papers/2606.05553

摘要

角色扮演语言代理需要随着叙事推进而进行动态角色发展，这要求基准评估关注心理轨迹对齐而非静态事实回忆，而ArcANE在将角色弧信息注入模型时展现了更优性能。

角色扮演语言代理（https://huggingface.co/papers?q=Role-playing%20language%20agents）（RPLAs）应当扮演随着故事推进而价值观和行为发生演变的角色，而非保持固定的人格。现有基准衡量的是特定章节的事实回忆，而非回答是否与角色的心理轨迹（https://huggingface.co/papers?q=psychological%20trajectory）一致，尤其是在源文本从未探索的场景中。我们引入了ArcANE（弧线感知叙事评估（https://huggingface.co/papers?q=Narrative%20Evaluation）），这是一个自动构建的基准，涵盖17部小说和80个主要角色。角色弧光（https://huggingface.co/papers?q=Character%20Arc）将叙事沿心理轴划分为多个阶段，每个探针跨阶段提出相同场景，涵盖源文本内和源文本外的情况。在六个模型和六种上下文模式下，基于角色弧光（https://huggingface.co/papers?q=Character%20Arc）的条件设置在每种模型上都优于其他所有上下文策略，并且在源文本外（检索无果）的场景中差距最大。我们进一步对相同数据微调开源权重模型（https://huggingface.co/papers?q=open-weight%20models），得到ArcANE-8B/32B，这些模型在源文本外的场景中进一步扩大了弧线优势。

查看 arXiv 页面（https://arxiv.org/abs/2606.05553）查看 PDF（https://arxiv.org/pdf/2606.05553）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.05553）

引用该论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。

引用该论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。

引用该论文的 Space 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05553 以从本页面链接。

包含该论文的收藏 0

没有收藏包含此论文

将该论文添加到收藏（https://huggingface.co/new-collection）以从本页面链接。

ArcANE：角色扮演语言智能体能否在恰当时间保持角色一致性？

论文页面 - ArcANE：角色扮演语言代理能在正确时机保持角色吗？

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Space 0

包含该论文的收藏 0

相似文章

PersonaArena：用于评估和增强大语言模型中人格层面角色扮演的动态模拟框架

DynSess：面向角色扮演代理的动态会话级别评估与优化框架

扮演真正的研究者：一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集

角色扮演时，模型是否相信自己所说的话？

NARRA-Gym：用于评估交互式叙事智能体的基准

提交意见反馈