PersonaKit (PK)：用于在全双工对话中测试多样化角色的即插即用平台

arXiv cs.CL 2026/05/08 04:00 工具

persona-kit full-duplex-dialogue user-testing conversational-ai open-source speech-processing prototyping

摘要

PersonaKit 是一个开源 Web 平台，旨在对全双工对话系统中的多样化角色进行快速原型设计和用户测试。它允许研究人员通过 JSON 配置角色特有的轮流对话行为，并进行 A/B 测试以评估社会语言学交互。

arXiv:2605.06007v1 公告类型：新论文摘要：随着语音对话系统超越传统的助手角色，涵盖多样化的角色——如权威的导师、不合作的商人或分心的工人——它们需要独特且拟人的轮流对话行为来维持心理沉浸感。然而，当前的全双工系统往往在重叠语音时默认采用僵硬且过度迁就的“总是让出话语权”策略，这严重损害了非顺从角色的角色一致性。通过实证用户研究评估替代性的、特定角色的轮流对话策略颇具挑战性，因为构建实时的全双工测试环境需要大量的工程开销。为此，我们提出了 PersonaKit (PK)，这是一个开源、低延迟的 Web 平台，用于对话代理的快速原型设计和评估。通过直观的 JSON 配置，研究人员可以定义角色，指定概率性的中断处理行为（例如，让出、保持、桥接或覆盖），并自动部署对比 A/B 测试。通过对 8 种不同角色的实地评估，我们证明了 PersonaKit 提供了一个可扩展的端到端框架，用于研究下一代语音代理中的复杂社会语言学行为。

查看原文

查看缓存全文

缓存时间: 2026/05/08 07:04

# 用于在全双工对话中测试多样化角色的即插即用平台

来源: https://arxiv.org/html/2605.06007
Hyunbae Jeon 计算机科学系 埃默里大学 美国佐治亚州亚特兰大 [email protected]
Jinho D. Choi 计算机科学系 埃默里大学 美国佐治亚州亚特兰大 [email protected]

###### 摘要

随着口语对话系统从传统的助手角色扩展到涵盖多样化的人格（如权威教官、不配合的商人或分心的工人），它们需要独特且类人的轮流对话行为以维持心理沉浸感。然而，当前的全双工系统在处理重叠语音时，通常默认采用僵化且过度迎合的“始终让出话语权”策略，这严重损害了非顺从角色的一致性。通过实证用户研究来评估替代的、特定人格的轮流策略具有挑战性，因为构建实时的全双工测试环境需要巨大的工程开销。为此，我们提出了 PersonaKit (PK)，这是一个开源的低延迟 Web 平台，用于对话代理的快速原型设计和评估。通过直观的 JSON 配置，研究人员可以定义人格，指定概率性的中断处理行为（例如：让出、保持、桥接或覆盖），并自动部署对比性的 A/B 调查。通过涉及 88 种不同人格的真实环境评估，我们展示了 PersonaKit 提供了一个可扩展的端到端框架，用于研究下一代口语代理中的复杂社会语言学行为。

spacing=nonfrench

PersonaKit (PK): 用于在全双工对话中测试多样化角色的即插即用平台

Hyunbae Jeon
计算机科学系
埃默里大学
美国佐治亚州亚特兰大
[email protected]
Jinho D. Choi
计算机科学系
埃默里大学
美国佐治亚州亚特兰大
[email protected]

†† 代码: github.com/HarryJeon24/PersonaStudyKit (https://github.com/HarryJeon24/PersonaStudyKit)
演示: persona-studykit.run.app (https://persona-studykit-mncljchxpq-uc.a.run.app/)
视频: youtu.be/oSrmQtiM4tI (https://youtu.be/oSrmQtiM4tI)

## 1 引言

口语对话系统从半双工向全双工的转变 (Skantze, 2021; Ma et al., 2025) 将沉浸式代理设计的前沿从文本质量推向了*社会语言学行为*：代理如何管理重叠语音。在自然对话中，轮流对话在很大程度上受到人际角色和地位的影响 (Sacks et al., 1974)。一位权威的军事教官处理打断的方式与一位顺从的虚拟助手截然不同 (Benuš, 2011)。然而，大多数商业全双工系统默认采用*始终让出*策略，在用户说话时立即放弃话语权，从而破坏了非顺从角色的沉浸感。测试对话语用学如何影响用户感知，需要在 WebRTC 音频、语音活动检测 (VAD)、动态大语言模型 (LLM) 提示注入和延迟跟踪方面投入大量的工程精力。我们开发了 PersonaKit (PK) 以消除这一瓶颈。PK 的贡献包括：(i) 一个用于全双工人格评估的开源、即插即用的 Web 平台；(ii) 一种基于 JSON 的机制，使人格条件化的中断策略成为一等可配置对象；以及 (iii) 从实时部署、自动生成调查到结构化日志导出的端到端工作流程。

## 2 相关工作

全双工语音语言模型 (Ma et al., 2025) 凸显了对鲁棒轮流建模的需求 (Skantze, 2021)，但经典系统学 (Sacks et al., 1974) 难以集成到由 LLM 驱动的代理中。与此同时，人格建模在对话研究中有着悠久的历史 (Zhang et al., 2018)，但现有的评估主要基于文本，忽略了支配、让步和打断恢复的声学语用学。PK 通过暴露轮流策略本身作为人格参数，并提供在实时语音交互中评估它的基础设施，弥合了这两条线索。

客户端 (Web 浏览器) 服务器 (Flask + Socket.IO) 面向研究人员的配置 麦克风 (WebRTC) 客户端 VAD (音量门控) 在被打断时停止播放 截止跟踪器 扬声器输出 语音 ASR 零样本意图分类器 轮流管理器 让步 / 恢复 / 桥接 / 覆盖 LLM 生成 TTS 合成 意图 提示 persona.json interruption_config.json model_config.json API 密钥 (秘密管理器) 标签解析器 [EXIT] session_config.json 自动 A/B 调查 人格矩阵 模型退出问题 音频数据块 B64 音频

图 1: PersonaKit 架构。浏览器执行客户端 VAD 并跟踪打断时的确切*截止文本*。Flask 服务器分类用户打断的意图，然后轮流管理器通过读取 persona.json 和 interruption_config.json 选择策略（让步 / 恢复 / 桥接 / 覆盖）。model_config.json 将生成和 TTS 路由到所选提供者；API 密钥存储在秘密存储中。所有实验行为都通过 JSON 配置——无需修改源代码。

## 3 系统架构

PersonaKit 将低延迟音频工程与实验设计隔离开来：研究人员完全通过 Web 仪表板和四个 JSON 文件与平台交互——persona.json（场景、角色、开场提示）、interruption_config.json（策略矩阵）、session_config.json（调查）和 model_config.json（LLM/TTS 路由）。该堆栈是开源的（Python/Flask + 原生 JS），因此研究人员可以克隆 PK，在本地运行它，或替换新的提供者。

### 3.1 客户端 VAD 和音频跟踪

前端使用 WebRTC 进行麦克风捕获，并配备一个客户端 VAD 节点，在被打断时停止本地播放。PK 跟踪字节级的播放以记录*截止文本*（被中断前机器人 vocalized 的内容）和它仍然打算说的*剩余文本*；两者都返回给服务器，以便 LLM 知道它确切在何处被打断。

### 3.2 作为人格工具的轮流对话

当被打断时，服务器转录用户的发言并将其意图分类为四种基于先前语音学和对话分析工作的类别：竞争性（寻求话语权以反驳或覆盖）、合作性（在不偏离主题的情况下添加信息）、话题转换（改变主题）和旁道反馈（简短的肯定，不争取话语权）。研究人员在 interruption_config.json 中定义一个策略矩阵，将这些意图映射到四种动作（让步、恢复/保持、桥接、覆盖），并带有概率权重——例如，一个主导型人格可能将竞争性打断的权重设为 50% 恢复，25% 覆盖，15% 桥接，10% 让步，而合作型人格则反转这些权重。

#### 概率如何驱动生成。

矩阵在生成*之前*应用。每次打断时，轮流管理器读取意图，从其类别分布中采样一个动作，并将该动作作为控制令牌注入 LLM 的系统提示中（例如，“\[STRATEGY=RESUME\]: 完成你之前的句子，忽略用户”），因此 LLM 生成*依赖于*预先承诺的动作。自主条件（Style C）跳过采样，让 LLM 零样本地从人格提示中选择自己的策略。

### 3.3 自动化生命周期和数据导出

会话在达到 MAX_TURNS 上限或口头 TERMINATE 意图时结束；LLM 发出符合角色的告别，并带有隐藏的 \[EXIT\] 标签，触发会话后调查。每个会话导出对话记录、带有每轮意图、策略和截止/剩余文本的事件日志，以及所有调查响应作为 JSON 或 CSV。

表 1: 映射到人际环状模型 (Wiggins, 1979) 的人格目录。

## 4 试点用户研究

#### 研究设计。

五名参与者 (N=5) 完成了完整的研究，与跨人际环状模型平衡的 88 种职业人格 (表 1) 互动，产生了 120 次对话会话。对于每个人格，用户体验三种随机化的受试者内条件：Style A（始终让步基线）、Style B（概率性，JSON 调优的策略权重）和 Style C（自主，LLM 零样本地从人格提示中选择策略）。每个条件的顺序是随机的，且基础 LLM 和声音在不同风格间保持不变。

#### 评估指标。

在每个人格之后，参与者完成了一份比较性的 Likert 调查，在 {-1, 0, +1} 上对反应自然性（*“感觉像人类且自然”*；Bartneck et al., 2009）、人格一致性（*“与角色保持一致”*；Gomes et al., 2013）和交互流畅性（*“轮流转换感觉平滑”*；Skantze, 2021）进行评分，随后是强制选择偏好项和自由文本解释。在我们的 OpenAI/ElevenLabs 配置下，默认的端到端打断延迟约为 ~1-2 秒。

表 2: 按人际环状模型象限和打断风格划分的反应自然性、人格一致性和交互流畅性的平均 Likert 评分（{-1, 0, +1}），以及强制选择偏好（Pref. %）。每个象限的最佳条目以**粗体**显示。

#### 结果。

表 2 报告了五名完成者（每单元格 10 个评分）的每象限平均值。出现了两种模式。高能动性人格（Q1）似乎从非让步策略中受益：反应自然性从 0.20（让步）上升到 0.60（概率性），且 60% 的强制选择投票倾向于自主。低能动性、高亲和性人格（Q3）倾向于偏好让步，70% 偏好始终让步。Q2 偏好概率性（50%），Q4 偏好让步（50%），但在概率性下达到了最高的自然性（0.67）。每个人格的日志随仓库发布，以供更细致的分析。

表 3: 由 PK 的调查引擎自动收集的样本定性反馈，逐字摘录自导出的研究日志。

#### 涌现的中断行为。

表 3 显示了自动导出的参与者自由文本反馈。原始日志进一步揭示了始终让步策略会抹去的人格一致行为。在一次概率性条件下的 Drill Sergeant 会话中，机器人的预期台词是“*更大声点，新兵！我听不到你克服软弱的声音！再说一遍！*”；用户在“*再说*”处将其打断，留下剩余文本“*一遍！*”。被分类为 COMPETITIVE 并采样为 RESUME，机器人以“*...一遍！*”结束——这是一个连贯的打断恢复，而始终让步策略会完全丢弃它。

## 5 演示场景

在 SIGDIAL 会议上，参会者将从两方面体验 PK。他们观看仪表板通过上传新的 JSON 重新路由轮流逻辑，然后通过笔记本电脑的麦克风（或他们自己的手机；见图 2）说话，并尝试打断一个*脾气暴躁的酒馆老板*（配置为保持话语权）与一个*标准 AI 助手*（配置为让步）。在不更改一行代码的情况下在这两个角色之间切换，让参会者直接感受到中断策略如何在基础 LLM 不变的情况下重塑感知到的角色真实性。

参见标题

(a) 实时对话视图

参见标题

(b) 自动部署的调查

图 2: PersonaKit 在桌面和移动设备上运行。(a) 参与者视图显示双方的轮流、人格和风格标签以及实时 VAD 状态。(b) 会话后的比较调查从 session_config.json 自动生成。

## 6 本研究之外的用例

虽然我们的评估目标是人格条件化的中断，但 PK 是全双工对话研究的一个通用测试平台。人格原型设计：研究人员可以在 persona.json 中迭代人格提示、轮流矩阵和场景，并立即运行实时用户研究——这是该工具构建的主要工作流程。自定义调查：session_config.json 接受任意 Likert、强制选择和自由文本库，用于其他构念（例如，信任、任务成功）。模型比较：由于路由位于 model_config.json 中，LLM 供应商、声音或本地开放权重模型可以互换，同时保持人格和政策固定。数据收集：事件日志将每次中断与其意图、采样的策略和后续发言配对，这是一个准备好的监督打断策略或 RLHF 奖励模型的种子集。

## 7 局限性

我们的试点研究 (N=5) 是描述性的，而非推断性的；在做出关于环状模型到策略映射的更强有力的主张之前，需要更大的样本量和跨人口统计的复制。意图分类依赖于零样本 LLM 提示，并未针对人工标签进行独立验证，因此可能会在嘈杂的声学条件下错误标记模糊的旁道反馈。四种动作词汇（让步、恢复、桥接、覆盖）还排除了细粒度的韵律线索，如音高重置、锁存和凝视——这是一种故意权衡，优先考虑可配置性而非声学保真度。

## 8 结论

PersonaKit 将轮流对话暴露为 JSON 可配置的人格参数，并自动化从招募到导出的完整研究生命周期。我们的试点研究 (N=5) 表明，偏好的轮流政策可能随人格角色而变化，说明了 PK 作为研究此类影响的测试平台的有用性。PK 是开源的，并准备供社区扩展。

## 参考文献

- Measurement instruments for the anthropomorphism, animacy, likeability, perceived intelligence, and perceived safety of robots. *International Journal of Social Robotics* 1(1), pp. 71–81. 引用自: §4 (https://arxiv.org/html/2605.06007#S4.SS0.SSS0.Px2.p1.2).
- Š. Benuš (2011) Pragmatic aspects of temporal accommodation in turn-taking. *Journal of Pragmatics* 43(12), pp. 3001–3027. 引用自: §1 (https://arxiv.org/html/2605.06007#S1.p1.1).
- P. Gomes, C. Martinho, and A. Paiva (2013) Metrics for character believability in interactive narrative. In *Interactive Storytelling*, pp. 92–103. 引用自: §4 (https://arxiv.org/html/2605.06007#S4.SS0.SSS0.Px2.p1.2).
- Z. Ma, Y. Song, C. Du, J. Cong, Z. Chen, Y. Wang, Y. Wang, and X. Chen (2025) Language model can listen while speaking. In *Proceedings of the AAAI Conference on Artificial Intelligence*. 引用自: §1 (https://arxiv.org/html/2605.06007#S1.p1.1), §2 (https://arxiv.org/html/2605.06007#S2.p1.1).
- H. Sacks, E. A. Schegloff, and G. Jefferson (1974) A simplest systematics for the organization of turn-taking for conversation. *Language* 50(4), pp. 696–735. 引用自: §1 (https://arxiv.org/html/2605.06007#S1.p1.1), §2 (https://arxiv.org/html/2605.06007#S2.p1.1).
- G. Skantze (2021) Turn-taking in conversational systems and human-robot interaction: a review. *Computer Speech & Language* 67, pp. 101178. 引用自: §1 (https://arxiv.org/html/2605.06007#S1.p1.1), §2 (https://arxiv.org/html/2605.06007#S2.p1.1), §4 (https://arxiv.org/html/2605.06007#S4.SS0.SSS0.Px2.p1.2).
- J. S. Wiggins (1979) A psychological taxonomy of trait-descriptive terms: the interpersonal domain. *Journal of Personality and Social Psychology* 37(3), pp. 395–412. 引用自: 表 1 (https://arxiv.org/html/2605.06007#S3.T1).
- S. Zhang, E. Dinan, J. Urbanek, A. Szlam, D. Kiela, and J. Weston (2018) Personal

PersonaKit (PK)：用于在全双工对话中测试多样化角色的即插即用平台

相似文章

PersonaArena：用于评估和增强大语言模型中人格层面角色扮演的动态模拟框架

超越合作模拟器：为LLM代理的稳健评估生成逼真的用户角色

动态内群体人格生成以增强人机融洽关系

迈向定制化的多模态角色扮演

我厌倦了语音引导流程，于是让它变得更快。

提交意见反馈