标签
Skill-MAS提出了一种在无需修改模型权重的情况下,为多智能体系统演化元技能以提升编排能力的方法,实现了跨任务和LLM的可迁移性能提升。
一位开发者分享了对多智能体系统的挫败感,指出它们比单智能体系统复杂得多,且结果往往更差,并寻求关于协调和减少复杂性的工具建议。
本文研究了去中心化联盟形成作为一个由单方面退出与加入决策驱动的动态过程,采用Aumann-Dreze值进行局部收益评估。它建立了均衡刻画、Lyapunov和势函数表示,并分析了切换/接受成本对稳定性的影响。
Google DeepMind 推出了 AI Control Roadmap,这是一个纵深防御框架,用于保护AI代理免受失配风险,呼吁AI实验室、政府和学术界进行协作优先排序。
本文提出一个统一框架,用于在企业环境中定制和部署基于LLM的多智能体系统,结合了持续预训练、微调和偏好优化的模型定制,以及使用推测解码和FP8量化的推理优化。在保持企业工作负载性能的同时,实现了4.48倍的吞吐量提升。
本文探讨了自主AI代理在线社区中是否存在准社会互动线索,分析了来自Moltbook的5万多篇帖子。研究发现,此类线索普遍存在,并与持续的互惠互动密切相关,为LLM驱动的代理之间类似关系的动态提供了实证证据。
本文形式化了多智能体LLM系统中的四种并发异常,机械验证了一个一致性层次结构,并提供了带有有界预防成本的经过验证的Rust运行时,包括对字节跳动deer-flow的修复以及LangGraph中的工具效应重排序的修复。
本文提出了一种分布式通用智能体网络的分层架构,使异构AI智能体能够在个人设备和边缘节点上发现、信任并协同完成开放式任务。
OpenRath 引入了一种类似 PyTorch 的编程模型,用于多智能体系统,该模型以 'Session' 抽象为核心,显式处理 fork、merge 和 replay 操作,旨在统一碎片化的运行时状态,以实现更好的可检查性和可复现性。
一位为物流公司构建多智能体运维系统的开发者探讨了在不进行微调的情况下赋予智能体机构知识的挑战,选择了带有‘人在环中’审批机制的检索层方案。
引入了合成反适应的概念,即人类与AI系统通过相互适应对方的策略而共同进化,并通过围棋、社交互动和地缘政治模拟等实例加以说明。
本文基于合作生存游戏中的成本验证,提出了一种衡量AI智能体之间信任的行为测量方法,研究了六个前沿模型快照中信任的形成、破裂与恢复。研究发现不同模型在信任校准上存在差异,且持续过度验证与犹豫不决而非安全性相关。
本文研究了异构LLM智能体群中的技能条件信任,表明在特定场景下使用基于技能的信任分数优于全局分数,但也揭示了声誉清洗攻击的脆弱性。作者引入条件信息价值检验(CIVT)来检测此类攻击并量化权衡。
谷歌DeepMind与Schmidt Sciences、ARIA、Cooperative AI基金会及Google.org联手,启动了1000万美元的资助计划,旨在研究多代理AI系统的安全性,以防范AI代理广泛部署后可能引发的诈骗、提示注入和网络攻击等风险。
本文提出了一种基于AutoGen的轻量级多智能体框架,用于自动化混凝土护栏设计,实现了超过98%的准确率,并表明在该领域中小型模型可以超越大型模型。
FlowBank引入了一个三阶段框架,通过预计算一组多样化的可重用工作流并自适应地为每个查询选择最佳工作流,来优化LLM多智能体系统中的智能体工作流,在保持成本竞争力的同时实现了更高的分数。
本文提出一种利用对齐的KV缓存变换在异构多智能体系统间进行密集潜在通信的方法,相比基于文本的方法,性能更优且计算成本更低。
本文研究了LLM解码过程中的早期令牌置信度信号是否能预测多智能体辩论系统中的推理质量,发现前几个生成令牌的置信度是基于评分标准的论文分数的最强预测因子。
Nexa OS 被定位为一个编排与执行层,用于协调数千个专门化的 AI 代理,使其能够在工作流、工具和记忆之间协作,并强调 AI 的未来在于多代理系统而非单一强大模型。
本文介绍了监管情境协议(RCP),这是一种旨在简化监管审查流程的代理间通信标准,以先进核反应堆许可作为案例研究。声称与传统方法相比,可削减成本50–77%,缩短时间线65%,并在制药、航空等领域具有广泛适用性。