主动式LLM智能体的通信策略演化
摘要
本文形式化了LLM智能体的通信策略,并提出了通信策略演化(CPE),一种通过 rollout 和提示级演化来优化通信策略的自我演化框架,在多种设置下实现了最佳任务成功率。
arXiv:2606.14314v1 公告类型:新
摘要:LLM智能体已迅速发展为自主系统,然而,用户与智能体之间仍然存在持续的信息鸿沟:通信成本高昂,而用户相同的偏好进一步限制了信息交换。为了探究智能体应如何在不同模态之间进行通信,本文形式化了通信策略,建立了基于文本和基于UI的策略,并在多种环境、角色和模型组合中评估了通信策略。为了构建主动式智能体的信息不对称,我们设置了两个互补的场景:用户-智能体和规划器-执行器。实验结果显示交互通道之间存在互补优势:基于文本的交互通常有助于任务性能,而结构化UI则提升了智能体的响应质量和角色遵从性。受此启发,一种混合方法结合了这些优势。我们进一步提出了通信策略演化(CPE),一种通过 rollout 和提示级演化来优化通信策略的自我演化框架。无需修改模型,CPE仅通过提示优化就在多种设置下实现了最佳任务成功率。我们的发现表明,通信行为是LLM智能体一个关键但尚未充分探索的设计维度。
查看缓存全文
缓存时间: 2026/06/15 09:11
# 面向主动式LLM代理的通信策略进化 来源:https://arxiv.org/html/2606.14314 马鑫贝¹, 邱嘉阳¹,∗, 姚尧¹, 郑武¹, 陆一杰¹, 瞿祥谋², 尹嘉欣², 楼星宇²,†, 王军²,†, 刘伟文¹, 张伟男¹, 张志生¹,†, 赵海¹ ¹上海交通大学, ²OPPO研究院 \{sjtumaxb, qiujiyang, zhangzs\}@sjtu\.edu\.cn, zhaohai@cs\.sjtu\.edu\.cn louxingyu@oppo\.com, junwang\.lu@gmail\.com ###### 摘要 LLM代理已快速演变为自主系统,但用户与代理之间仍存在持续的信息鸿沟:通信成本高昂,而用户偏好的趋同进一步限制了信息交换。为了研究*代理应如何在模态间进行通信*,本文形式化了*通信策略*,建立了基于文本和UI的策略,并在多种环境、用户画像和模型组合中评估了通信策略。针对主动式代理构建信息不对称性,我们设置了两种互补场景:*用户–代理*和*规划器–执行器*。实验结果表明交互通道之间具有互补优势:基于文本的交互通常有助于任务完成,而结构化UI则能提升代理的响应质量和画像遵从性。受此启发,一种混合方法结合了这些优势。我们进一步提出了*通信策略进化*(CPE),这是一种通过展开测试和提示级进化来优化通信策略的自我进化框架。无需修改模型,仅通过提示优化,CPE即可在多种设置下实现最佳任务成功率。我们的发现表明,通信行为是LLM代理中一个关键但尚未充分探索的设计维度。面向主动式LLM代理的通信策略进化 马鑫贝¹††thanks:同等贡献。在OPPO实习期间完成工作。, 邱嘉阳¹,∗, 姚尧¹, 郑武¹, 陆一杰¹, 瞿祥谋², 尹嘉欣², 楼星宇²,†, 王军²,†, 刘伟文¹, 张伟男¹, 张志生¹,†, 赵海¹††thanks:通讯作者。¹上海交通大学, ²OPPO研究院 \{sjtumaxb, qiujiyang, zhangzs\}@sjtu\.edu\.cn, zhaohai@cs\.sjtu\.edu\.cn louxingyu@oppo\.com, junwang\.lu@gmail\.com ## 1 引言 大型语言模型(LLM)代理已快速演变为具备推理、工具使用以及与用户和环境进行扩展交互能力的自主系统 (Yao et al., 2022 (https://arxiv.org/html/2606.14314#bib.bib64); Wei et al., 2022 (https://arxiv.org/html/2606.14314#bib.bib65); Patil et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib66); Qin et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib67); Wang et al., 2025b (https://arxiv.org/html/2606.14314#bib.bib20))。尽管取得了这些进展,一个根本瓶颈仍然存在:用户通常持有他们希望完成的完整任务,但自然语言无法一次性完全传达所有约束、偏好和边界情况。重要信息只能通过交互逐步显现。因此,代理始终只能访问到*部分信息*,而成功的任务完成不仅依赖于推理和执行,还取决于代理通过交互恢复缺失信息的能力 (Fang and Ke, 2025 (https://arxiv.org/html/2606.14314#bib.bib76))。这一挑战因用户专业知识、耐心和沟通风格的差异而进一步复杂化,这些因素直接影响交互质量 (Bhattacharjee et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib74); Wu and Osawa, 2024 (https://arxiv.org/html/2606.14314#bib.bib75))。主动式代理通过澄清对话 (Deng et al., 2023 (https://arxiv.org/html/2606.14314#bib.bib30); Liao et al., 2023 (https://arxiv.org/html/2606.14314#bib.bib31))、主动规划 (Zhang et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib7)) 以及不确定性下的顺序决策 (Suri et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib10); Huang et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib9)) 来主动获取缺失信息。然而,这一研究方向主要关注代理*应该询问什么*,而很大程度上忽略了同样重要的问题:*代理应该如何进行通信?*在实践中,信息恢复从根本上受到通信通道本身的塑造 (Sachdeva et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib80))。自由形式的自然语言能够实现灵活且开放式的交互,而结构化界面则将用户响应约束为组织良好、歧义较低的格式。因此,在这些交互通道之间进行选择成为实现有效任务状态对齐的关键决策。生成式UI利用LLM生成HTML及相关代码,然后渲染为多模态界面供用户查看和交互。近期研究表明,结构化界面能显著提升信息收集质量 (Chen et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib62)):与无约束的自由文本交互相比,结构化表单将用户从回忆模式转换为识别模式,通过输入约束和视觉组织提高了精确性 (Wei et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib44); Anbalagan et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib78))。此外,LLM本身已能流畅生成HTML界面 (Cao et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib43); Nandy et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib83)),而代理–计算机接口研究进一步凸显了结构化交互界面对LLM代理的价值 (Jimenez et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib84))。然而,现有工作主要旨在改进生成式UI本身,而非将其部署于实际应用。在本文中,我们将通道选择决策形式化为**通信策略**。我们为代理配备两种通信原语:`ask_question`(自由形式语言交互)和 `generate_ui`(基于HTML的表单)。这定义了两种单通道设置 `M_{text}` 和 `M_{ui}`,以及一种混合设置 `M_{hybrid}`,其中代理动态选择两种通道。在四种环境和多样用户画像下,我们发现文本和UI具有互补优势:文本驱动任务完成,而UI提升响应质量和画像遵从性。混合访问在大多数设置中实现了最佳总体结果,尽管最优策略取决于任务结构和用户画像。为了自动优化通信策略,我们提出了**通信策略进化**(CPE)。在每一轮中,CPE在训练批次上评估当前策略,提示LLM分析展开结果并提出针对性编辑,并通过两阶段门控接受或拒绝候选策略,从而保证在保留数据上的单调提升。优化后的策略在所有评估配置下均达到了最佳任务完成度,且仅通过提示级优化实现,无需修改模型权重。我们的贡献有三方面: 1. 1. 我们识别出通道选择是LLM代理交互中的基本问题,并形式化了文本+UI混合通信的通信策略。 2. 2. 我们在部分信息下系统评估了混合通信,表明文本和UI交互在任务和用户间表现出互补优势。 3. 3. 我们提出了CPE,一种通过迭代展开分析发现有效通信策略的自我进化框架,通过提示优化实现了最高生产力。 ## 2 相关工作 #### LLM代理的主动性 主动式LLM代理主动寻求缺失信息,而非被动遵循不完整指令。该领域的工作涵盖提示LLM进行澄清对话 (Deng et al., 2023 (https://arxiv.org/html/2606.14314#bib.bib30))、对话系统中的结构化澄清 (Sahay et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib34); Siro et al., 2026 (https://arxiv.org/html/2606.14314#bib.bib13))、代理在行动前询问的主动规划 (Zhang et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib7))、从环境事件中预测用户需求 (Lu et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib8))、不确定性下的顺序决策 (Suri et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib10); Huang et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib9)) 以及开放式主动辅助 (Abbas et al., 2026 (https://arxiv.org/html/2606.14314#bib.bib36))。尽管形式多样,但这些工作聚焦于*询问什么*:通信通道本身,即*代理如何询问*,仍未得到审视。 #### 以用户为中心的代理设计 以用户为中心的代理设计关注代理如何适应个体用户偏好,而非以相同方式与所有用户交互。基于画像的用户模拟器将多样交互风格嵌入LLM用户代理,从而能够在无昂贵人类研究的情况下进行受控评估 (Dou et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib57); Gromada et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib15); Samuel et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib16); Wang et al., 2025a (https://arxiv.org/html/2606.14314#bib.bib14)),并推动了探究个性化和人–代理对话差距的基准测试 (Hao et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib52); Wang et al., 2025b (https://arxiv.org/html/2606.14314#bib.bib20))。个性化技术利用显式用户画像、潜在偏好模型或好奇心驱动的奖励来定制响应 (Li et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib54); Qiu et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib55); Shi et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib56); Wan et al., 2026 (https://arxiv.org/html/2606.14314#bib.bib59))。在这一系列工作基础上,我们将通信通道本身引入作为设计变量,探究基于结构化UI的交互是否能提升代理与用户画像对齐的能力。 参见标题图 1:我们的通信策略制定与进化概览。(a) 一个完整任务规格 `z` 包含具有不同敏感度成本的信息维度,而代理仅观察到模糊版本 `~z = vague(z)`。(b) 我们研究两种场景:用户–代理交互和规划器–执行器交互,其中代理/执行器同时与模拟器和环境交互。(c) 我们比较纯文本 `M_{ui}`、纯UI `M_{ui}` 以及混合通信模式 `M_{hybrid}`,每一轮通过 `π_comm` 选择通道。模拟器记录披露的 Cost 级别和可选的画像对齐 Reward。 #### 测试时进化 近期的测试时优化方法使LLM代理能够通过交互经验改进行为,而无需参数更新。现有方法包括黑盒提示优化 (Yang et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib21); Wang et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib22))、文本梯度下降 (Yuksekgonul et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib60))、迹驱动反射与门控 (Agrawal et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib23); Yi et al., 2025 (https://arxiv.org/html/2606.14314#bib.bib24)) 以及多代理优化 (Zhang et al., 2026 (https://arxiv.org/html/2606.14314#bib.bib26))。相关的自反射代理从失败迹中更新记忆 (Shinn et al., 2023 (https://arxiv.org/html/2606.14314#bib.bib28); Zhao et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib61)),尽管其有效性常依赖验证信号的质量 (Huang et al., 2024 (https://arxiv.org/html/2606.14314#bib.bib29))。虽然这些方法优化提示以提升代理的任务执行能力,我们的工作则聚焦于优化通信行为,训练代理在部分信息下决定何时通过自然语言通信、何时依赖结构化UI交互来恢复用户意图。 ## 3 通信策略评估 ### 3.1 问题形式化 我们考虑包含三个组件的交互设置:用户、代理和环境。一个可完成的任务由*任务规格* `z` 完全指定,其中包含成功执行所需的所有信息,并由提议方(如用户)持有。由于通信过程中的信息丢失,代理仅观察到*模糊规格* `~z`,其中 `z` 的部分任务相关信息缺失或未充分指定。 `~z = vague(z), where |~z| << |z|.` (1) 交互按步骤 `t = 1,2,...` 进行。在步骤 `t`,代理持有关于 `z` 的信念 `b_t`,该信念从 `~z` 初始化,并从交互模式决定的动作空间中选择通信动作 `a_t` (§3.2)。用户看到 `a_t` 及交互历史 `h0 r^{(i)} > 0` 意味着混合模式低于单通道基线,最小化遗憾等价于最大化 `J(π_comm; D)`。 **迭代优化。** CPE的每一轮包含四个步骤: 1. 1. **评估。** 当前策略 `π_comm` 在批次 `B ⊆ D_train` 上展开 `K` 个回合,产生每回合得分和交互轨迹 `τ^{(i)} = {(a_t, o_t, c_t)}_{t=1}^{T_i}`,其中 `a_t ∈ {ask_question, generate_ui}` 是代理在第 `t` 轮的通道选择,`o_t` 是用户的响应,`c_t` 是产生的 Cost(方程4)。 2. 2. **进化。** 使用相同的LLM提示其自我进化通信策略:它分析批次评估结果并提出针对性编辑。提供给LLM的信号详见 §4.3。基于这些信号,LLM产生结构化的JSON补丁: `Δπ_comm = Evolve( π_comm, {s_prod^{(i)}, s_pro^{(i)}, s_pers^{(i)}}_{i∈B}, {τ^{(i)}, z^{(i)}}_{i∈B}, H )` (8) 其中 `Δπ_comm` 是应用于当前策略文本的JSON补丁,覆盖或追加其组件。 3. 3. **变异。** 应用补丁以产生候选策略 `π_comm'`。 4. 4. **选择。** 在同一批次 `B` 上评估 `π_comm'`。接受候选策略的条件为: `J(π_comm'; B) > J(π_comm; B) + ε` (9) 若被拒绝,则撤销改回至本轮前状态,策略保持为 `π_comm`。 **验证门控与单调性。** 为防止对单个批次过拟合,`D` 被划分为 `D_train` 和 `D_val`,并跨轮维持迄今最佳策略 `π_comm*` 及其得分 `J*`。批次 `B_r ⊆ D_train`相似文章
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
PolicyBank:为LLM智能体演进策略理解
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。
超越静态评估:面向对抗博弈的LLM驱动策略演化中的共演化机制
本文提出了三种面向LLM驱动的对抗多智能体博弈代码演化的共演化机制(评估器共演化、分层深度评估和弱点压力),在MCTF 2026海上夺旗任务中取得了最先进的结果。
重新思考自进化大语言模型智能体的持续经验内化
本文研究了大语言模型智能体在多轮迭代经验内化过程中出现能力渐进式崩溃的原因,并提出了一套从经验粒度、注入模式和训练机制三个维度出发的鲁棒解决方案。主要发现包括:原则级经验、逐步注入方式以及离策略上下文蒸馏能够带来更稳定、更可持续的持续学习效果。
超越个体智能:基于LLM的多智能体系统中的协作、故障归因与自我进化综述
本综述论文对基于LLM的多智能体系统进行了统一回顾,聚焦于协作、故障归因和自我进化,通过LIFE框架识别开放挑战,并提出跨阶段的研究议程。