multi-agent-systems

#multi-agent-systems

超越 Goodhart's Law：用于评估多智能体系统合规性的动态基准

arXiv cs.AI ↗ · 2026-06-09 缓存

本文介绍了 MAC-Bench，一个用于评估多智能体系统程序合规性的动态对抗基准。它提出了 SERV 流水线以生成无污染场景，以及新的指标如合规加权成功率 (CSR) 和马基雅维利差距 (MG)。

0 人收藏 0 人点赞

#multi-agent-systems

消失的崩盘：五模型经济中的控制与涌现

Hugging Face Blog ↗ · 2026-06-08 缓存

一篇技术博客文章，描述了一个黑客马拉松项目，其中五个不同的小型AI模型运行一个模拟经济，揭示了与单一模型相比，使用异构智能体时涌现的市场行为有所不同，并且价格是智能体决策的残留物，而非可控的旋钮。

0 人收藏 0 人点赞

#multi-agent-systems

Queen-Bee 智能体：以 BeeSpec 为中心的企业 MCP 编排管控架构

arXiv cs.AI ↗ · 2026-06-08 缓存

本文介绍了 Queen-Bee，一种用于企业 MCP 编排的受管控多智能体架构，该架构通过 BeeSpec 中间表示分离了规划与执行，在原型评估中实现了高任务成功率且零治理失败。

0 人收藏 0 人点赞

#multi-agent-systems

超越对齐：价值多样性作为多文化代理系统中的集体属性

Hugging Face Daily Papers ↗ · 2026-06-04 缓存

本文定义了文化多样性作为多代理系统的一个新评估维度，通过测量对世界价值观调查响应的成对差异。实验表明，当前模型缺乏人类社会的价值多样性，混合骨干可以提高对齐和多样性，但交互会减少多样性。

0 人收藏 0 人点赞

#multi-agent-systems

# 先规划，再判断，跑得更好：一个受DMAIC启发的工业异常检测智能体系统

arXiv cs.AI ↗ · 2026-06-04 缓存

DMAIC-IAD 是一个多智能体大语言模型系统，其设计灵感来源于 DMAIC 质量管理框架，专为工业异常检测而构建。该系统采用"先规划、后判断"的方法，通过标准化操作流程制定检测策略，并利用无需执行的裁判模型对策略进行排序，在四种数据模态上相较于智能体基线实现了 37.76% 的性能提升。

0 人收藏 0 人点赞

#multi-agent-systems

共识在战略层面的不足：将推理轨迹分歧作为知识表示信号

arXiv cs.AI ↗ · 2026-06-04 缓存

本文认为，在多智能体 LLM 系统中，追求共识对于涉及价值判断的任务而言是不够的，并提出一种知识表示层，将智能体推理轨迹的分歧归类为四种符号状态，以实现内容审核等系统中的策略性路由。

0 人收藏 0 人点赞

#multi-agent-systems

我们为多智能体系统添加了一个失效安全开关。当所有四个出站通道同时故障时，系统将升级为人工处理。

Reddit r/AI_Agents ↗ · 2026-06-03

一个多智能体系统的构建者添加了一个失效安全开关，当所有四个出站通信通道同时被阻塞时，会提醒人类，防止静默故障。该修复包括一个去重保护，以避免重复警报。

0 人收藏 0 人点赞

#multi-agent-systems

StepFinder：一种用于多智能体系统故障归因的时间语义框架

arXiv cs.AI ↗ · 2026-06-03 缓存

StepFinder 是一个轻量级框架，仅在特征构建阶段使用LLM将执行日志编码为时间语义序列，然后应用参数高效的时间与注意力模块进行多智能体系统的故障归因。在Who&When基准测试中，与最快的基于LLM的方法相比，推理时间减少了79%。

0 人收藏 0 人点赞

#multi-agent-systems

智能体应该说什么？面向高效多智能体系统的动作状态通信

Hugging Face Daily Papers ↗ · 2026-06-03 缓存

本文介绍了PACT，一种用于在多智能体LLM系统中构建智能体间通信的方法，它使用紧凑的动作状态记录来减少令牌消耗，同时保持或提高任务性能，并在SWE-agent和OpenHands上展示了效果。

0 人收藏 0 人点赞

#multi-agent-systems

我们不再让AI代理提前规划三步，可靠性迅速提升

Reddit r/AI_Agents ↗ · 2026-06-02

一位实践者观察到，限制AI代理每次只规划一步而非多步，能显著提升涉及CRM和潜在客户资格认定的现实自动化工作流的可靠性，因为长期计划在外部状态变化时变得脆弱。

0 人收藏 0 人点赞

#multi-agent-systems

@vintcessun: 多智能体系统开发门槛太高，没学过Agent理论的人根本不敢碰。结果就是项目落地难，团队只能依赖少数专家。这篇论文直接把分布式系统的成熟架构模式（发布-订阅、消息队列等）拿过来，定义一套最小Agent概念映射上去。学生连DS经验都没有也能用…

X AI KOLs Timeline ↗ · 2026-06-02 缓存

这篇论文提出将分布式系统的成熟架构模式（如发布-订阅、消息队列）直接映射到多智能体系统，以降低开发门槛，并在课程中验证：即使无分布式系统经验的学生也能用gRPC、RabbitMQ上手，平均分超过80%。

0 人收藏 0 人点赞

#multi-agent-systems

从Ollama切换到Anthropic SDK破坏了一个原本运行良好的系统。LLM没有改变代码，而是改变了时序

Reddit r/AI_Agents ↗ · 2026-06-02

作者分享了为AI代理团队构建共享决策日志时遇到的陷阱，包括更快的模型暴露出的竞态条件、余弦相似度在矛盾检测中的不可靠性，以及测试多代理承诺的挑战。

0 人收藏 0 人点赞

#multi-agent-systems

HypoAgent：一种面向知识图谱的交互式溯因假设生成的智能体框架

arXiv cs.AI ↗ · 2026-06-01 缓存

HypoAgent是一种面向知识图谱的交互式溯因假设生成的智能体框架，集成了三个智能体以处理不断变化的用户意图和细粒度诊断，实现了最先进的性能。

0 人收藏 0 人点赞

#multi-agent-systems

LLM团队能玩‘What? Where? When?’吗？

arXiv cs.CL ↗ · 2026-06-01 缓存

本文研究了在问答游戏‘What? Where? When?’（ChGK）中，基于团队协作的交互是否能提升LLM的表现。通过在2025年发布的572道问题的数据集上使用六个最新的开源LLM，他们展示了团队策略（投票、沉默队长、健谈队长）比单个模型高出最多20个百分点，最佳团队达到了44.23%的准确率，接近人类水平。

0 人收藏 0 人点赞

#multi-agent-systems