见我所见,知我所想:异构智能体间的密集潜在通信

Hugging Face Daily Papers 论文

摘要

本文提出一种利用对齐的KV缓存变换在异构多智能体系统间进行密集潜在通信的方法,相比基于文本的方法,性能更优且计算成本更低。

多智能体系统主要通过文本进行通信,这需要付出有损且昂贵的解码与重新编码成本。KV缓存通信是一种有潜力的替代方案,但先前的工作大多是同构的(使用同一模型的重复副本),并且回避了跨模型潜在对齐的核心挑战;现有的异构方法也有限制,通常假设共享输入,并将传输的缓存主要用于引导。我们研究一个更基础的问题:异构智能体能否对齐得足够好,以实现真正的“读心”,既能转移一个智能体看到的视觉信息,又能转移其思考方式?我们的信息结构分析揭示了一种对偶性:上下文感知的转移由稀疏的推理信号驱动,而上下文无关的转移(接收方看不到任何输入)则需要保留密集的上下文知识。受此启发,我们提出了一种用于异构KV缓存通信的密集对齐方法,通过轻量级跨模型缓存变换和两阶段训练(先重建后生成)。在{Qwen3-4B、8B、14B}所有六个方向以及六个域内和域外基准测试中,我们的方法优于先前的异构基线,在上下文感知场景中达到或超越文本通信的性能,计算成本约为后者的1/2到1/3,并且在上下文无关转移(先前方法失效的情况)中仍然有效。
查看原文
查看缓存全文

缓存时间: 2026/06/12 18:54

论文页面 - 观我所见,知我所想:异构体之间的密集潜在通信

来源:https://huggingface.co/papers/2606.13594

摘要

异构多智能体系统可以通过对齐的 KV-cache 通信有效传递知识,在降低计算成本的同时取得优于文本方法的性能。

多智能体系统主要依赖文本进行通信,这会带来有损且昂贵的编解码成本。KV-cache 通信 (https://huggingface.co/papers?q=KV-cache%20communication) 是一种有前途的替代方案,然而以往的工作大多是同构的,使用同一模型的多个副本,避免了跨模型潜在对齐 (https://huggingface.co/papers?q=cross-model%20latent%20alignment) 这一核心挑战;现有的异构方法也较为局限,通常假设共享输入,并主要利用传输的缓存进行引导。我们研究了一个更根本的问题:异构体 (https://huggingface.co/papers?q=heterogeneous%20agents) 能否被充分对齐以实现真正的“读心术”,既能传递一个智能体看到的,又能传递它如何思考?我们的信息结构分析揭示了一种对偶性:上下文感知传输 (https://huggingface.co/papers?q=context-aware%20transfer) 由稀疏的推理信号驱动,而上下文不可知传输 (https://huggingface.co/papers?q=context-unaware%20transfer) (接收方看不到任何输入)则需要密集的上下文知识保留。受此启发,我们提出了面向异构 KV-cache 通信 (https://huggingface.co/papers?q=KV-cache%20communication) 的密集对齐 (https://huggingface.co/papers?q=dense%20alignment) ,通过轻量级的跨模型缓存变换 (https://huggingface.co/papers?q= cross-model%20cache%20transformation) 和两阶段训练 (https://huggingface.co/papers?q=two-phase%20training) :重建 (https://huggingface.co/papers?q=reconstruction) 后接生成 (https://huggingface.co/papers?q=generation) 。在 {Qwen3-4B, 8B, 14B} 的全部六个方向以及六个域内和域外基准测试中,我们的方法优于先前的异构基线,在上下文感知设置中匹配或超越文本通信的性能,同时计算开销降低约 2 到 3 倍,并且在先前方法失效的上下文不可知传输 (https://huggingface.co/papers?q=context-unaware%20transfer) 中仍然有效。

查看 arXiv 页面 (https://arxiv.org/abs/2606.13594) 查看 PDF (https://arxiv.org/pdf/2606.13594) 项目页面 (https://chicychen.github.io/dense-hetero-latent-mas/) 添加至收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.13594)

在您的智能体中获取此论文:

hf papers read 2606.13594

没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.13594 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.13594 以从此页面链接。

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.13594 以从此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

Latent Cache Flow:无需文本的模型间通信

arXiv cs.LG

本文介绍了 Latent Cache Flow(LCF),一种通过交换压缩后的KV缓存而非文本来实现高效模型间通信的方法,从而减少了适配器大小并实现了跨上下文通信。

面向低延迟多智能体工具调用的有状态推理架构

arXiv cs.LG

本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。

为扩散语言模型启用共享前缀的KV缓存

arXiv cs.LG

本文提出BiCache,一种面向扩散语言模型共享前缀的新型KV缓存技术,通过动态重用浅层中缓存的键和值来避免精度崩溃,并实现36.3%–98.3%的吞吐量提升。