标签
本文介绍了 MAC-Bench,一个用于评估多智能体系统程序合规性的动态对抗基准。它提出了 SERV 流水线以生成无污染场景,以及新的指标如合规加权成功率 (CSR) 和马基雅维利差距 (MG)。
一篇技术博客文章,描述了一个黑客马拉松项目,其中五个不同的小型AI模型运行一个模拟经济,揭示了与单一模型相比,使用异构智能体时涌现的市场行为有所不同,并且价格是智能体决策的残留物,而非可控的旋钮。
本文介绍了 Queen-Bee,一种用于企业 MCP 编排的受管控多智能体架构,该架构通过 BeeSpec 中间表示分离了规划与执行,在原型评估中实现了高任务成功率且零治理失败。
本文定义了文化多样性作为多代理系统的一个新评估维度,通过测量对世界价值观调查响应的成对差异。实验表明,当前模型缺乏人类社会的价值多样性,混合骨干可以提高对齐和多样性,但交互会减少多样性。
DMAIC-IAD 是一个多智能体大语言模型系统,其设计灵感来源于 DMAIC 质量管理框架,专为工业异常检测而构建。该系统采用"先规划、后判断"的方法,通过标准化操作流程制定检测策略,并利用无需执行的裁判模型对策略进行排序,在四种数据模态上相较于智能体基线实现了 37.76% 的性能提升。
本文认为,在多智能体 LLM 系统中,追求共识对于涉及价值判断的任务而言是不够的,并提出一种知识表示层,将智能体推理轨迹的分歧归类为四种符号状态,以实现内容审核等系统中的策略性路由。
一个多智能体系统的构建者添加了一个失效安全开关,当所有四个出站通信通道同时被阻塞时,会提醒人类,防止静默故障。该修复包括一个去重保护,以避免重复警报。
StepFinder 是一个轻量级框架,仅在特征构建阶段使用LLM将执行日志编码为时间语义序列,然后应用参数高效的时间与注意力模块进行多智能体系统的故障归因。在Who&When基准测试中,与最快的基于LLM的方法相比,推理时间减少了79%。
本文介绍了PACT,一种用于在多智能体LLM系统中构建智能体间通信的方法,它使用紧凑的动作状态记录来减少令牌消耗,同时保持或提高任务性能,并在SWE-agent和OpenHands上展示了效果。
一位实践者观察到,限制AI代理每次只规划一步而非多步,能显著提升涉及CRM和潜在客户资格认定的现实自动化工作流的可靠性,因为长期计划在外部状态变化时变得脆弱。
这篇论文提出将分布式系统的成熟架构模式(如发布-订阅、消息队列)直接映射到多智能体系统,以降低开发门槛,并在课程中验证:即使无分布式系统经验的学生也能用gRPC、RabbitMQ上手,平均分超过80%。
作者分享了为AI代理团队构建共享决策日志时遇到的陷阱,包括更快的模型暴露出的竞态条件、余弦相似度在矛盾检测中的不可靠性,以及测试多代理承诺的挑战。
HypoAgent是一种面向知识图谱的交互式溯因假设生成的智能体框架,集成了三个智能体以处理不断变化的用户意图和细粒度诊断,实现了最先进的性能。
本文研究了在问答游戏‘What? Where? When?’(ChGK)中,基于团队协作的交互是否能提升LLM的表现。通过在2025年发布的572道问题的数据集上使用六个最新的开源LLM,他们展示了团队策略(投票、沉默队长、健谈队长)比单个模型高出最多20个百分点,最佳团队达到了44.23%的准确率,接近人类水平。
作者分享了将AI Agent系统从沙盒迁移到生产环境的经验,强调了当Agent执行任务时,人类角色变得模糊,团队脱离参与,导致运营失败。
讨论了编码代理在复杂长期任务中的挑战,指出了奇怪的用户体验问题和低效的代理交互,并主张对代理框架拥有更多控制权。
三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。
一本开源交互式手册,用于构建 Agentic DevOps 流水线,涵盖多智能体系统的可观测性、基于测试的提示评估、护栏和成本控制。
Helicase是一个自主多Agent LLM系统,通过不确定性引导构建供应链知识图谱。它将复杂查询分解为可执行计划,并在新的SCQA基准上优于基线方法。