具有共享上下文的去中心化多智能体系统

Hugging Face Daily Papers 论文

摘要

本文介绍了一种名为DeLM(去中心化语言模型)的框架,这是一种用于多智能体系统的架构,它利用并行智能体和共享已验证上下文来改进测试时扩展并降低成本,在SWE-bench Verified和LongBench-v2上取得了最先进的结果。

多智能体系统(MAS)可以通过将复杂问题分解为并行子任务,在测试时扩展大语言模型的推理能力。然而,现有的大多数MAS依赖集中式编排,即由一个主智能体分配任务、收集输出并合并结果。随着子任务数量的增加,这个控制器会成为通信和集成瓶颈。我们提出去中心化语言模型(DeLM),这是一种MAS框架,通过并行智能体、共享已验证上下文和任务队列实现去中心化协调。智能体异步认领子任务、读取已累积的进展、执行局部推理,并写回紧凑的已验证更新。共享上下文充当公共通信基板,使智能体能够相互基于彼此的已验证进展进行构建,而无需通过中央控制器路由每个更新。实验表明,DeLM在软件工程测试时扩展和长上下文推理两方面都有提升。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4上均取得了最佳性能,相比最强基线提升了多达10.5个百分点,同时每个任务的成本降低了约50%。在LongBench-v2多文档问答中,DeLM在四个前沿模型家族中取得了最高平均准确率,相比最强基线提升了多达5.7个百分点。代码可在我们的项目网站获取:https://yuzhenmao.github.io/DeLM/。
查看原文
查看缓存全文

缓存时间: 2026/06/10 17:46

论文页面 - 基于共享上下文的去中心化多智能体系统

来源:https://huggingface.co/papers/2606.10662

摘要

去中心化语言模型(DeLM)框架通过并行智能体实现可扩展的大语言模型推理,这些智能体通过共享的验证上下文异步协调,在性能和效率上均优于集中式方法。

多智能体系统(https://huggingface.co/papers?q=Multi-agent%20systems)可以在测试时通过将复杂问题分解为并行子任务(https://huggingface.co/papers?q=parallel%20subtasks)来扩展大语言模型的推理能力。然而,现有的MAS大多依赖集中式编排,即由一个主智能体分派工作、收集输出并合并结果。随着子任务数量的增加,这种控制器会成为通信和整合的瓶颈。我们提出去中心化语言模型(DeLM),这是一种通过并行智能体、共享验证上下文(https://huggingface.co/papers?q=shared%20verified%20context)和任务队列(https://huggingface.co/papers?q=task%20queue)来实现协调去中心化的MAS框架。智能体异步领取子任务,读取累积的进展,执行局部推理,并写回紧凑的已验证更新。共享上下文充当通用的通信基础,使智能体能够基于彼此的已验证进展进行构建,而无需通过中央控制器路由每次更新。实验表明,DeLM在软件工程(https://huggingface.co/papers?q=software-engineering)测试时扩展(https://huggingface.co/papers?q=test-time%20scaling)和长上下文推理(https://huggingface.co/papers?q=long-context%20reasoning)方面均有提升。在SWE-bench Verified(https://huggingface.co/papers?q=SWE-bench%20Verified)上,DeLM在Avg.@1、Pass@2和Pass@4上均取得最佳性能,相比最强基线提升高达10.5个百分点,同时每个任务的成本降低约50%。在LongBench-v2(https://huggingface.co/papers?q=LongBench-v2)多文档问答中,DeLM在四个前沿模型系列中取得最高平均准确率,相比最强基线提升高达5.7个百分点。代码已发布在我们的项目网站上:https://yuzhenmao.github.io/DeLM/。

查看 arXiv 页面(https://arxiv.org/abs/2606.10662)查看 PDF(https://arxiv.org/pdf/2606.10662)项目页面(https://yuzhenmao.github.io/DeLM/)GitHub1(https://github.com/yuzhenmao/DeLM)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.10662)

在你的智能体中获取此论文:

hf papers read 2606.10662

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.10662 即可从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.10662 即可从此页面链接。

引用此论文的 Space0

无 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.10662 即可从此页面链接。

包含此论文的收藏0

无收藏包含此论文

将此论文添加到一个收藏(https://huggingface.co/new-collection)中即可从此页面链接。

相似文章

SMAC-Talk:面向大语言模型的星际争霸多智能体挑战自然语言扩展

arXiv cs.AI

SMAC-Talk 是一个新的基准测试,在星际争霸多智能体挑战的基础上进行扩展,旨在评估基于 LLM 的智能体在具有自然语言通信的协作多智能体环境中的表现。该基准包含带有欺骗性通信者的场景,并使用 Qwen3.5 系列模型对智能体进行基准测试,以研究推理能力、记忆机制和模型规模对协调效果的影响。

面向长周期任务的智能体兼容上下文管理

arXiv cs.AI

介绍AdaCoM,一种基于外部LLM的上下文管理器,适用于冻结的智能体。通过保留任务约束和修剪过时内容,利用强化学习提升长周期任务性能,并在网络搜索和深度研究基准上进行了实验。

TMAS:通过多智能体协同扩展测试时计算

Hugging Face Daily Papers

TMAS 引入了一种多智能体框架,通过结构化协作与分层记忆系统扩展测试时计算,从而增强大语言模型的推理能力。该方法采用专用智能体、跨轨迹信息流以及混合奖励强化学习,有效提升了模型在复杂推理基准上的迭代扩展性能与稳定性。