标签
本文介绍了MemClaw,一种用于多智能体LLM系统的受控共享内存架构,形式化了诸如未授权泄漏和过时传播等故障模式,并通过ArgusFleet测试框架评估了该系统。
一条推文推荐学习图论和网络理论作为高回报率投资,列出关键书籍、课程和工具。
RollArt 提出了一种用于大规模强化学习的解耦架构,展示了在效率和可扩展性方面的显著提升。
本文提出了一种分布式通用智能体网络的分层架构,使异构AI智能体能够在个人设备和边缘节点上发现、信任并协同完成开放式任务。
美国运通描述了其核心支付生态系统采用的单元化架构,该架构能够隔离故障、降低延迟并扩展容量。这种方法将微服务和数据库分组到独立的单元中,以限制爆炸半径。
本文描述了Scuba,这是一个由Facebook开发的分布式内存数据库系统,用于实时分析和数据探索。
对Antithesis的深入探讨,这是一款针对大型分布式系统的多重宇宙调试器,提供确定性重放和故障注入功能,现已作为免费文章发布。
文章认为,AI代理由持久事件日志定义,而非运行时或模型,从而支持容错恢复并简化对代理状态的推理。
讨论了多智能体系统中共享状态的两个故障模式——并发丢失更新和僵尸写入者,并提出了一种带有栅栏写入者和模型验证保证的解决方案。
作者将其私有AI开发团队重建为一个开源的基底,包含可寻址的代理、可靠的消息传递、专长发现、记忆和隔离的运行时,使得团队行为能够从自然语言指令中涌现。他们分享了关于死锁和自我修复等协调挑战的见解,并提出了代理团队如何通过自然语言指令进行协作的问题。
探讨扩展无冲突复制数据类型(CRDTs)以处理并发创建,超越其传统的合并并发编辑能力。
一篇 Twitter 帖子列举了 35 个开发者应知的系统设计核心概念,并附有详细解释的链接,旨在帮助开发者学习和复习关键主题。
作者讨论了在生产中构建可靠AI Agent时那些不引人注目但至关重要的方面,包括监控运行中的进程、恢复失败的任务以及提供UI状态,并向社区询问常见的痛点和现成的解决方案。
一份精心挑选的阅读清单,包含基础和现代资源,用于理解代理架构,融合了经典分布式系统概念与当前AI代理模式。
一位开发者分享了一份精心挑选的软件工程书籍推荐清单,涉及AI工程、分布式系统和重构等主题,并推销了自己的著作。
一个全面的系统设计大师树,涵盖从基础知识到实际应用的各个方面,包括架构模式、数据库、缓存、消息系统、API设计和部署策略。旨在作为软件工程师的结构化学习指南。
这篇论文提出将分布式系统的成熟架构模式(如发布-订阅、消息队列)直接映射到多智能体系统,以降低开发门槛,并在课程中验证:即使无分布式系统经验的学生也能用gRPC、RabbitMQ上手,平均分超过80%。
本文研究在机器人的运输与地图构建任务中,重新组织机器人间的通信是否比增大机载模型规模带来更大收益。结果显示,切换至模块化层级交互可将归一化性能提升47点,而将神经网络隐藏层大小翻倍至多带来9点提升。
一位Databricks技术负责人认为,多智能体AI系统失败的原因并非模型智能不足,而是缺乏协调。他将50多个智能体视为一个分布式系统问题,其中并行处理容易实现,但保持共享一致性困难重重。
Agyn是一个开源的、原生于Kubernetes的代理运行时,它将Claude Code和Codex等AI代理引入生产环境,具备完整的凭证隔离和预构建的适配器。它通过在Sidecar中运行MCP服务器并对内部服务使用mTLS来解决安全问题,防止提示注入导致凭证泄露。