标签
@system_monarch的一条推文列出了27个核心系统设计概念(从入门到高级),推荐用于顶级科技公司(如Google、Meta和Uber)的高级软件工程面试。
Silk 是一个为 ClickHouse 设计的新栈式纤程库和调度器,通过 NUMA 感知的工作窃取、io_uring 以及热路径上的零堆分配来提升异步 I/O 性能。它适用于分布式缓存、对象存储和网络 I/O 等 I/O 密集型组件。
本论文来自阿尔托大学,提出了同步架构的分类体系,分析了权衡与决策因素,以指导广义同步引擎的设计。
与 Clever Cloud 的资深工程师 Pierre Zemb 的访谈,讨论他在 FoundationDB 上构建数据层的工作以及之前在 OVHcloud 的经历。
本文介绍了MemClaw,一种用于多智能体LLM系统的受控共享内存架构,形式化了诸如未授权泄漏和过时传播等故障模式,并通过ArgusFleet测试框架评估了该系统。
推荐Nancy Lynch的《分布式算法》,这本书对分布式系统从业者是极有价值的资源。
一条推文推荐学习图论和网络理论作为高回报率投资,列出关键书籍、课程和工具。
RollArt 提出了一种用于大规模强化学习的解耦架构,展示了在效率和可扩展性方面的显著提升。
本文提出了一种分布式通用智能体网络的分层架构,使异构AI智能体能够在个人设备和边缘节点上发现、信任并协同完成开放式任务。
美国运通描述了其核心支付生态系统采用的单元化架构,该架构能够隔离故障、降低延迟并扩展容量。这种方法将微服务和数据库分组到独立的单元中,以限制爆炸半径。
本文描述了Scuba,这是一个由Facebook开发的分布式内存数据库系统,用于实时分析和数据探索。
对Antithesis的深入探讨,这是一款针对大型分布式系统的多重宇宙调试器,提供确定性重放和故障注入功能,现已作为免费文章发布。
文章认为,AI代理由持久事件日志定义,而非运行时或模型,从而支持容错恢复并简化对代理状态的推理。
讨论了多智能体系统中共享状态的两个故障模式——并发丢失更新和僵尸写入者,并提出了一种带有栅栏写入者和模型验证保证的解决方案。
作者将其私有AI开发团队重建为一个开源的基底,包含可寻址的代理、可靠的消息传递、专长发现、记忆和隔离的运行时,使得团队行为能够从自然语言指令中涌现。他们分享了关于死锁和自我修复等协调挑战的见解,并提出了代理团队如何通过自然语言指令进行协作的问题。
探讨扩展无冲突复制数据类型(CRDTs)以处理并发创建,超越其传统的合并并发编辑能力。
一篇 Twitter 帖子列举了 35 个开发者应知的系统设计核心概念,并附有详细解释的链接,旨在帮助开发者学习和复习关键主题。
作者讨论了在生产中构建可靠AI Agent时那些不引人注目但至关重要的方面,包括监控运行中的进程、恢复失败的任务以及提供UI状态,并向社区询问常见的痛点和现成的解决方案。
一份精心挑选的阅读清单,包含基础和现代资源,用于理解代理架构,融合了经典分布式系统概念与当前AI代理模式。
一位开发者分享了一份精心挑选的软件工程书籍推荐清单,涉及AI工程、分布式系统和重构等主题,并推销了自己的著作。