EmoDistill: 对抗性谈判中语言模型智能体的离线情感技能蒸馏

arXiv cs.CL 2026/05/27 04:00 论文

摘要

EmoDistill是一个离线框架，通过隐式Q学习进行情感选择，并基于LoRA的监督微调和评判策略优化进行情感表达，从而将情感谈判技能蒸馏到语言模型智能体中，在对抗性谈判中实现更高的效用。

arXiv:2605.26785v1 公告类型: 新 \n摘要: 后训练的大型语言模型通常经过优化，使其响应符合人类偏好，从而使其安全、礼貌且适合对话。然而，在对抗性谈判中，这种对齐可能成为弱点：情感化的语言可能引导智能体倾向于对方利益。通过使用基于GoEmotions的情感提示，我们表明情感会显著改变谈判结果，表明情感是一个战略行动通道而非表面风格。因此，我们引入了\\textbf{EmoDistill}，一个用于将情感谈判技能蒸馏到语言模型智能体的离线框架。EmoDistill将情感策略分解为情感选择和情感表达：隐式Q学习（IQL）选择器学习\\emph{哪种}情感来表达，而基于低秩适应（LoRA）的策略通过监督微调（SFT）和评判策略优化（JPO）学习\\emph{如何}表达。在四个情感敏感、高风险的谈判领域中，在EmoDistill框架下训练的小型语言模型策略取得了最高效用，优于普通小型/大型语言模型基线和仅使用IQL的情感选择。消融研究表明情感条件化至关重要，迁移实验展示了在跨领域、未见过的对手以及训练对训练锦标赛中的泛化能力。总体而言，EmoDistill从离线的智能体间交互中学习技能，避免了训练期间成本高昂的在线谈判。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:10

# 在线下对抗性谈判中用于语言模型代理的情绪技能蒸馏
来源：https://arxiv.org/html/2605.26785
Yunbo Long¹，∗，Haolang Zhao¹，∗，Lukas Beckenbauer²，Liming Xu¹，⁴，Alexandra Brintrup¹，⁵†
¹剑桥大学，²慕尼黑工业大学，⁴Exiger LLC，⁵艾伦·图灵研究所
\{yl892,hz496,lx249,ab702\}@cam.ac.uk，[email protected]
∗同等贡献。†通讯作者。

## 摘要
经过后训练的大型语言模型（LLM）通常被优化，以使其响应与人类偏好对齐，从而变得安全、礼貌且在对话中得体。然而，在对抗性谈判中，这种对齐可能成为一个弱点：带有情绪色彩的措辞可能引导代理倾向于对方的利益。通过使用基于GoEmotions的情感提示，我们表明情绪显著地改变了谈判结果，这表明情绪是一个战略行动渠道，而非仅仅是一种表面风格。因此，我们引入了EmoDistill，这是一个离线框架，用于将情绪谈判技能蒸馏到语言模型代理中。EmoDistill将情绪策略分解为情绪选择和情绪表达：一个隐式Q学习（IQL）选择器学习*表达哪种*情绪，而一个基于低秩自适应（LoRA）的策略通过监督微调（SFT）和评判器策略优化（JPO）学习*如何*表达情绪。在四个情绪敏感、高风险谈判领域中，在EmoDistill框架下训练的小语言模型（SLM）策略获得了最高的效用，优于普通的SLM/LLM基线和仅使用IQL的情绪选择。消融实验表明，情绪调节是必不可少的，而迁移研究则展示了跨领域、跨未见对手以及训练与训练对战的泛化能力。总体而言，EmoDistill从离线代理间的交互中学习技能，避免了训练过程中昂贵且实时的在线谈判。代码可在 https://github.com/Yunbo-max/EmoDistill 获取。

EmoDistill：用于对抗性谈判中语言模型代理的离线情绪技能蒸馏
Yunbo Long¹，∗，Haolang Zhao¹，∗，Lukas Beckenbauer²，Liming Xu¹，⁴，Alexandra Brintrup¹，⁵†
¹剑桥大学，²慕尼黑工业大学，⁴Exiger LLC，⁵艾伦·图灵研究所
\{yl892,hz496,lx249,ab702\}@cam.ac.uk，[email protected]
∗同等贡献。†通讯作者。

## 1 引言

参见图注
图1：单情绪提示对CRAD债务谈判的影响。GoEmotions标签按平均每轮评判奖励（±95% Welch置信区间）排序，虚线表示普通基线。

参见图注
图2：EmoDistill概述，它将离线LLM与LLM之间的谈判转化为带有奖励标注的情绪谈判技能，并通过IQL情绪选择、LoRA-SFT和JPO将其蒸馏到7B SLM中。

现代大型语言模型通过RLHF（Kasbouya and Sael, 2025）、DPO（Gao et al., 2025）和指令微调进行了广泛的后训练，使其变得乐于助人、礼貌且具有包容性。虽然这种对齐使它们成为有用的通用助手，但当相同的模型作为自主代理部署在战略或对抗性环境中时，这可能会成为一种负担。这种风险在那些代表用户执行重要行动的工具调用代理中被放大，例如转账、预订旅行、购买产品、安排会议或处理客户支持（Lin et al., 2024; Abbasiantaeb et al., 2024; Hu et al., 2025）。其中许多任务涉及价格、时间、优先级、退款或截止日期的谈判。由于对手可能是另一个LLM代理，并且可能没有人类参与，带有情绪色彩的措辞就成了一种实用的攻击方法。因为情绪线索强烈地影响LLM的输出，情绪既可以作为一个战略弱点，如果建模得当，也可以作为一个防御性的控制通道。

为了验证情绪是一个有意义的战略变量，而非仅仅是提示词的一个装饰性特征，我们首先在CRAD上使用GoEmotions标签（Demszky et al., 2020）进行了一项受控的单情绪提示研究。对每种情绪，我们在20个保留场景中评估LLM谈判者，每个场景运行20次采样，并计算平均每轮评判奖励。多种情绪产生的奖励显著高于中性提示，这表明仅情绪框架就能系统地改变谈判结果。这促使我们将情绪视为一种行动：谈判者不仅应该学习提出什么报价，还应该学习表达哪种情绪。完整的统计过程见附录B。

直接的方法是进行在线学习，从采样的谈判和观察到的结果中学习。然而，这不太适合LLM代理之间的谈判。每一次展开都是一次代价高昂的多轮交互，涉及随机的基于API的代理，这使得数据难以重新生成、重用或复现。此外，许多采样的对话对于情绪策略来说是弱监督：它们可能以提前达成协议、嘈杂的情感回应或谈判失败告终，而未揭示是哪种情绪行为导致了该结果。这使得像PPO（Schulman et al., 2017）这样的在线RL方法在我们的设置中既昂贵又不稳定。现有的情绪感知谈判方法通过将情绪建模为动态决策变量（Long et al., 2026a, 2025a, 2025b）减少了部分成本。然而，它们主要优化*表达哪种*情绪，并依赖于稀疏的轨迹级反馈，这只能表明情绪序列是否有效，但无法表明哪个具体回应改善或损害了谈判。更重要的是，它们基本上固定了话语生成器，因此选定的情绪可能仍然以模糊的礼貌、过早的让步或薄弱的理由来体现。缺失的部分是*战略性的情绪表达*。在谈判中，情绪仅当植根于当前的讨价还价状态时才有用。愤怒应针对不可接受的提议而非个人；恐惧应创造可信的紧迫感而非示弱；让步应被框架为有条件的交换而非投降。因此，目标不是让模型听起来情绪化，而是让情绪成为讨价还价行动的一部分。这激发了我们关于*情绪谈判技能*的概念。

最近的代理系统将技能视为可重用的能力，可以被检索、执行、评估和修订（Zhou et al., 2026）。在我们的设置中，技能不是手写的提示或外部程序，而是来自离线LLM与LLM交互扫描的带有奖励标注的谈判轮次（s_t, e_t, u_t, r_t）。它将对话状态、情绪立场、具体话语和评判反馈绑定为一个可重用的讨价还价行动。我们不是将这些技能存储在外部库中，而是将它们蒸馏进一个较小谈判者的参数中。因此，我们提出了EmoDistill，一个从预先计算的LLM与LLM交互中蒸馏情绪谈判技能的离线框架。通过将情绪选择与情绪表达分离，EmoDistill使7B SLM能够学习有效的谈判行为，而无需实时API交互。主要贡献如下：

- 我们引入了EmoDistill，一个将LLM级别的情绪切换和表达策略蒸馏到较小语言模型谈判者中的离线框架。实验表明，EmoDistill使7B SLM能够在多个谈判领域超越更强的LLM和SLM基线，同时展现出对未见设置的非平凡迁移能力。
- 我们实证揭示了LLM谈判中情绪选择与情绪表达的耦合作用。通过将基于IQL的情绪选择与随机情绪调节下基于SFT的表达学习分离，我们展示了优化代理如何表达选定情绪可以与情绪选择相结合，产生更有效的谈判策略。
- 我们提出了评判策略优化（JPO），它利用LLM评判派生的优势来改进经过SFT训练的表达策略。评判在每轮提供密集的反馈，说明每个话语如何影响谈判轨迹，使得SLM能够从离线数据中改进情绪表达，超越标准SFT。

## 2 相关工作

#### 代理间谈判中的情绪。
现代LLM代理在人类撰写的文本和对话上进行训练，因此继承了情感和语用模式，如礼貌、同理心和让步框架。当这些模型与其他代理谈判时，这些模式成为了讨价还价接口的一部分。由于先前工作表明情绪可以作为谈判中的动态战略工具（Huang and Hadfi, 2024; Griessmair et al., 2015; Olekalns and Druckman, 2014），我们将情绪视为基于LLM的代理间讨价还价中的一个可控行动通道。

最近的基于LLM的谈判系统已开始将情绪视为一个有意义的变量，但通常是作为输入而非优化输出。AgreeMate（Chatterjee et al., 2024）和ACE（Shea et al., 2024）使用情绪感知推理，而EQ-Negotiator（Long et al., 2026a）将情绪感知与隐马尔可夫推理相结合。EmoDebt（Long et al., 2025a）和EvoEmo（Long et al., 2025b）更进一步，将情绪视为一个顺序决策变量，分别通过贝叶斯优化和进化搜索进行优化。然而，所有这些工作都优化*表达哪种*情绪，同时固定了话语生成器；选定的情绪可能仍然以模糊的礼貌或过早的让步来体现。EmoDistill通过将情绪选择和情绪表达共同蒸馏到一个更小的模型中来解决这一差距。

#### 策略与表达的解耦。
He等人（2018）首先提出在谈判中将高层粗粒度对话行为（例如，propose(price=50)）与话语生成解耦，观察到端到端RL往往退化为退化解，例如重复话语或无意义的妥协，这些都利用了奖励信号。这一想法已扩展到合作性情感支持对话：EmoDynamiX（Wan et al., 2025）通过异构图形建模解耦策略预测与生成，DecoupledESC（Zhang et al., 2025）使用策略-响应解耦的DPO来缓解偏好偏差。我们的设置是对抗性的而非合作性的，且战略轴是*情绪*而非价格层面的行为；这些差异需要不同的训练信号和不同的解耦机制。EmoDistill将情绪选择（一个离线IQL选择器）与情绪表达（一个LoRA适配的SLM生成器）解耦，将两者蒸馏到一个7B学生模型中，而不是协调一个冻结的LLM与一个检索模块。

#### 使用LLM评判信号的离线蒸馏。
当人工标注或在线展开成本高昂时，LLM评判提供了可扩展的监督。RLAIF（Lee et al., 2023; Bai et al., 2022）使用AI生成的偏好进行序列级对齐，而过程奖励模型（Lightman et al., 2024）主要针对推理任务提供步骤级反馈。A-LoL（Baheti et al., 2024）相关，它是一种用于语言模型改进的离线优势方法：它将整个生成的响应视为一个行动，并在正优势示例上进行训练。然而，多轮谈判需要不同的信用分配结构。在EmoDistill中，每个焦点代理的轮次是一个带有奖励标注的情绪讨价还价行动，JPO使用场景归一化的轮次级评判优势来改进表达策略。这让模型学习哪些情绪话语使讨价还价轨迹更接近或远离焦点目标，而不仅仅是放大序列级的正例。我们在附录K中比较了A-LoL和JPO的改进效果。

## 3 EmoDistill

EmoDistill是一个离线管道，包含三个阶段。我们首先构建一个LLM与LLM的谈判数据集，并为每条离线轨迹附加两个互补信号：对每个焦点代理话语的密集每轮LLM评判分数，以及根据观察到的讨价还价动态和最终协议计算得出的结果形态轨迹回报。相同的离线扫描在所有训练阶段重复使用：IQL使用结果形态回报进行情绪选择（§3.3），LoRA-SFT使用混合评判-结果过滤器进行示范选择，JPO使用密集的评判派生优势进行话语级策略改进（§3.4）。第3.2节形式化了这个分阶段的信号设计。完整的EmoDistill策略在实验中报告为IQL+SFT+JPO：IQL选择调用哪种情绪技能，LoRA-SFT初始化如何表达该技能，JPO使用密集的评判派生优势改进话语生成器。

### 3.1 离线轨迹数据集与评判标注

对于每个领域（CRAD、灾难救援、医院手术、学生睡眠），我们收集 N=80 个训练场景 × M=100 次随机情绪序列展开，产生一个包含每个领域8000条轨迹的离线数据集 D。每次展开从完整行动词汇 E（28个GoEmotions标签）中采样情绪。在每个焦点代理轮次，D 记录 z_t = (s_t, e_t, u_t, r_t, s_{t+1})，其中 s_t 是对话状态，e_t ∈ E 是情绪行动，u_t 是焦点话语，r_t 是评判分配的每轮奖励，s_{t+1} 是对手回应后的下一个状态。每个高奖励实例构成一个*情绪谈判技能*：一个基于状态的情绪立场，通过具体的讨价还价话语实现。完整的每轮评判规则提示见附录P.3。数据集细节、扫描构建和提示接口见附录E.1、E.2和P。

### 3.2 奖励设计与分阶段信号使用

EmoDistill 从两个互补来源获取训练信号：一个*每轮 LLM 评判*，提供对每个焦点话语的密集主观评估；以及一个*结果形态客观奖励*，根据观察到的讨价还价动态和最终协议计算得出。

#### 主观信号。
一个 Qwen3.5-Plus 评判根据一个度量对齐的规则对每个焦点话语进行评分，该规则奖励...

EmoDistill: 对抗性谈判中语言模型智能体的离线情感技能蒸馏

相似文章

OPID: 同策略技能蒸馏用于智能体强化学习

多智能体协商中基于对手建模的偏好估计

OPD-Evolver：通过在线策略蒸馏培育整体智能体进化器

GDSD：强化学习作为扩散语言模型的引导式降噪器自蒸馏

EIBench：基于模拟器的基准测试与面向情感管理的回合信用强化学习

提交意见反馈