见我所见,知我所想:异构智能体间的密集潜在通信
摘要
本文提出一种利用对齐的KV缓存变换在异构多智能体系统间进行密集潜在通信的方法,相比基于文本的方法,性能更优且计算成本更低。
查看缓存全文
缓存时间: 2026/06/12 18:54
论文页面 - 观我所见,知我所想:异构体之间的密集潜在通信
来源:https://huggingface.co/papers/2606.13594
摘要
异构多智能体系统可以通过对齐的 KV-cache 通信有效传递知识,在降低计算成本的同时取得优于文本方法的性能。
多智能体系统主要依赖文本进行通信,这会带来有损且昂贵的编解码成本。KV-cache 通信 (https://huggingface.co/papers?q=KV-cache%20communication) 是一种有前途的替代方案,然而以往的工作大多是同构的,使用同一模型的多个副本,避免了跨模型潜在对齐 (https://huggingface.co/papers?q=cross-model%20latent%20alignment) 这一核心挑战;现有的异构方法也较为局限,通常假设共享输入,并主要利用传输的缓存进行引导。我们研究了一个更根本的问题:异构体 (https://huggingface.co/papers?q=heterogeneous%20agents) 能否被充分对齐以实现真正的“读心术”,既能传递一个智能体看到的,又能传递它如何思考?我们的信息结构分析揭示了一种对偶性:上下文感知传输 (https://huggingface.co/papers?q=context-aware%20transfer) 由稀疏的推理信号驱动,而上下文不可知传输 (https://huggingface.co/papers?q=context-unaware%20transfer) (接收方看不到任何输入)则需要密集的上下文知识保留。受此启发,我们提出了面向异构 KV-cache 通信 (https://huggingface.co/papers?q=KV-cache%20communication) 的密集对齐 (https://huggingface.co/papers?q=dense%20alignment) ,通过轻量级的跨模型缓存变换 (https://huggingface.co/papers?q= cross-model%20cache%20transformation) 和两阶段训练 (https://huggingface.co/papers?q=two-phase%20training) :重建 (https://huggingface.co/papers?q=reconstruction) 后接生成 (https://huggingface.co/papers?q=generation) 。在 {Qwen3-4B, 8B, 14B} 的全部六个方向以及六个域内和域外基准测试中,我们的方法优于先前的异构基线,在上下文感知设置中匹配或超越文本通信的性能,同时计算开销降低约 2 到 3 倍,并且在先前方法失效的上下文不可知传输 (https://huggingface.co/papers?q=context-unaware%20transfer) 中仍然有效。
查看 arXiv 页面 (https://arxiv.org/abs/2606.13594) 查看 PDF (https://arxiv.org/pdf/2606.13594) 项目页面 (https://chicychen.github.io/dense-hetero-latent-mas/) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13594)
在您的智能体中获取此论文:
hf papers read 2606.13594
没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.13594 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.13594 以从此页面链接。
引用此论文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.13594 以从此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
Latent Cache Flow:无需文本的模型间通信
本文介绍了 Latent Cache Flow(LCF),一种通过交换压缩后的KV缓存而非文本来实现高效模型间通信的方法,从而减少了适配器大小并实现了跨上下文通信。
超越标记:基于LLM的多智能体系统中潜在通信的统一框架
本文提出了一个基于LLM的多智能体系统中潜在通信的统一框架,按照通信信息内容、发送者-接收者对位和融合技术对方法进行分类,并回顾了2024至2026年间的十八种代表性方法。
面向低延迟多智能体工具调用的有状态推理架构
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。
智能体应该说什么?面向高效多智能体系统的动作状态通信
本文介绍了PACT,一种用于在多智能体LLM系统中构建智能体间通信的方法,它使用紧凑的动作状态记录来减少令牌消耗,同时保持或提高任务性能,并在SWE-agent和OpenHands上展示了效果。
为扩散语言模型启用共享前缀的KV缓存
本文提出BiCache,一种面向扩散语言模型共享前缀的新型KV缓存技术,通过动态重用浅层中缓存的键和值来避免精度崩溃,并实现36.3%–98.3%的吞吐量提升。