标签
KubeShark 是一个面向故障模式优先的 Kubernetes 技能,适用于 Claude Code 和 Codex,帮助 AI 代理通过默认使用安全设置并捕获常见错误(如已弃用的 API、配置错误的探针和不安全的 RBAC)来生成安全、可用于生产的 Kubernetes 配置。
LiteLLM 正在开源其 Agent 平台,允许开发者在隔离的 Kubernetes 沙箱中运行 Claude Code、Codex 和 Hermes 等编码代理,而不会暴露真实的 API 密钥。
文章预测,受工作场所、发烧友和游戏玩家群体等多种趋势的推动,个人集群——将多台计算机编排成一个单一实体——将变得像个人电脑一样普及。
一篇教程,涵盖了在 Rust 中模拟网络调用的多种策略,以发出事件的 Kubernetes 控制器为例,重点强调不降低生产代码的可测试性。
作者在重构一个 Kubernetes 仪表盘工具时反思道,虽然借助 AI 进行“氛围编程”(vibe-coding)能加速功能开发,但在缺乏人工监督的情况下,往往会导致架构臃肿和技术债务。
IREN以6.25亿美元收购Mirantis,将其云原生Kubernetes和AI基础设施软件整合到IREN的数据中心,旨在提供完整的AI云平台。
前谷歌工程师发布了一张谷歌内部工具及其开源替代品的地图,为构建可扩展的基础设施提供了秘籍。
Kubernetes v1.36 "Haru" 携 70 项增强正式发布,其中 18 项进入稳定版,25 项进入 Beta,25 项为 Alpha,同时包含若干弃用与移除。
开发者探索如何将GPU工作负载抽象化,使其无需厂商专属配置即可在多家GPU供应商间运行,倾向于将工作负载定义与基础设施绑定解耦。
字节跳动已将其高性能 Kubernetes 调度器 Gödel 开源,贡献给开源社区。
NVIDIA正将其GPU动态资源分配(DRA)驱动捐赠给CNCF及Kubernetes社区,使其从厂商主导转变为社区所有。此次捐赠旨在简化Kubernetes中面向AI工作负载的GPU资源管理,并通过与CNCF Confidential Containers社区的协作,为Kata Containers提供GPU支持。
# Kubernetes 扩展到 7,500 个节点 来源:[https://openai.com/index/scaling-kubernetes-to-7500-nodes/](https://openai.com/index/scaling-kubernetes-to-7500-nodes/) OpenAI将单个 Kubernetes 集群扩展到这个规模很少见,需要特殊的关注,但好处是提供了一个简单的基础设施,让我们的机器学习研究团队能够更快地迭代并扩展,而无需改变代码。从我们之前关于[扩展到 2,500 个节点](https://openai.com/index/scaling-kube)的文章以来
OpenAI 分享了将 Kubernetes 扩展到 2,500 个节点的基础设施经验教训,详细介绍了容器镜像拉取的优化方案,包括 kubelet 配置更改、Docker overlay2 迁移和预加载策略,以解决 Pending pod 的问题。
OpenAI 分享了他们的深度学习基础设施方法,并开源了 kubernetes-ec2-autoscaler,一个为 Kubernetes 优化的批处理自动扩展管理器,强调基础设施质量如何倍增研究进展。
Meshery 是一个开源的云原生服务网格和 Kubernetes 管理工具,提供了用于设计和基础设施管理的可视化平台。