单轮对话中多种支持策略的建模及其在情感支持对话中的应用
摘要
论文页面 - 单轮对话中多种支持策略的建模及其在情感支持对话中的应用 来源:[https://huggingface.co/papers/2604.17972](https://huggingface.co/papers/2604.17972) ## 摘要 多策略话语生成方法通过在单个回复中整合多种支持策略,优于单策略方法。情感支持对话(ESC)旨在通过生成移情性和支持性对话来帮助处于困境中的个体。
查看缓存全文
缓存时间: 2026/04/21 07:20
论文页面 - 情感支持对话中单回合内多种支持策略的建模
来源:https://huggingface.co/papers/2604.17972
摘要
情感支持对话中的多策略话语生成方法通过在单个回复中启用多种支持策略,优于单一策略方法。
情感支持对话(ESC)旨在通过生成富有同理心和支持性的对话来帮助处于困境中的人。以往的工作通常假设每个支持者的回复对应单一策略,但现实世界中的支持性交流往往在一个回复中涉及多种策略。在本文中,我们重新审视ESC任务,并将其形式化为多策略话语生成(https://huggingface.co/papers?q=multi-strategy%20utterance%20generation),其中每个回复可能包含一个或多个策略-响应对(https://huggingface.co/papers?q=strategy-response%20pairs)。我们提出两种生成方法:All-in-One(一体化),在单次解码步骤中预测所有策略-响应对(https://huggingface.co/papers?q=strategy-response%20pairs);以及One-by-One(逐一生成),迭代生成策略-响应对(https://huggingface.co/papers?q=strategy-response%20pairs)直到完成。两种方法都进一步结合了认知推理(https://huggingface.co/papers?q=cognitive%20reasoning),并由强化学习(https://huggingface.co/papers?q=reinforcement%20learning)指导,以改进策略选择和响应组织。我们在ESConv数据集上对话语级和对话级设置下评估我们的模型。实验结果表明,我们的方法有效建模多策略话语,并带来改进的支持质量和对话成功。据我们所知,这项工作首次提供了系统性实证证据,表明在一个回复中允许多种支持策略对于情感支持对话既可行又有益。所有代码和数据将在 https://github.com/aliyun/qwen-dianjin 公开可用。
查看arXiv页面 (https://arxiv.org/abs/2604.17972)查看PDF (https://arxiv.org/pdf/2604.17972)项目页面 (https://github.com/aliyun/qwen-dianjin)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2604.17972)
引用此论文的模型0
没有链接此论文的模型
在模型的README.md中引用arxiv.org/abs/2604.17972即可在此页面显示链接。
引用此论文的数据集0
没有链接此论文的数据集
在数据集的README.md中引用arxiv.org/abs/2604.17972即可在此页面显示链接。
引用此论文的Spaces0
没有链接此论文的Space
在Space的README.md中引用arxiv.org/abs/2604.17972即可在此页面显示链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection)即可在此页面显示链接。
相似文章
STRIDE-ED: 一个策略驱动的多步推理框架用于同情心对话系统
STRIDE-ED 是一个为同情心对话系统设计的策略驱动推理框架,它结合了结构化的多阶段推理、数据精化管道和两阶段训练(有监督微调 + 多目标强化学习)来改进情感理解和回复生成。该框架在开源大语言模型上的自动评指标和人工评估上都展示了一致的改进。
通过对话场景建模和意图-关键词桥接增强目标导向主动对话系统
本文提出了一种方法,通过将用户画像和领域知识共同建模为对话场景,并采用意图-关键词桥接技术来预测未来的对话轮次,从而增强目标导向的主动对话系统。
AI代理的战略决策支持
本文提出了一个针对AI代理的战略决策支持框架,通过构建一个优化问题来最小化支持使用量,同时控制遗漏支持错误。作者开发了一种在线算法和校准方法,并在信息收集、人机协作和工具使用等多个场景中展示了其有效性。
使用认知模型改进语言模型对人类说服游戏的模拟
本文提出方程到行为提示和强化学习,引导大型语言模型模拟说服游戏中多样的人类决策模式,显示出改进的信念准确性和训练结果。
多轮推理中信息分片段到达时的处理:可扩展分片与记忆增强强化学习
本文针对大语言模型在多轮对话中因信息分散而表现不佳的“迷失在对话”问题,提出了一种可扩展的分片流水线,将单轮问答数据集转化为多轮训练数据,并利用基于可验证奖励的强化学习训练一个维持紧凑滚动记忆的记忆增强策略,从而提高了多轮推理准确性,并零样本泛化到更困难的任务。