Launch HN: Expanse (YC P26) – 解锁闲置的GPU算力

Hacker News Top 2026/06/01 13:05 产品

gpu hpc kubernetes slurm resource-optimization startup y-combinator

摘要

Expanse 是一家创业公司，通过预测作业资源需求并提供优化建议，提高GPU/HPC集群的利用率，解决常见的过度请求资源导致实际利用率仅为30-40%的问题。

嘿，HN，我们是 Ismaeel、Eren、Yafet 和 Nikodem。我们建立了 Expanse（<a href="https://expanse.sh/">https://expanse.sh/</a>），旨在提高运行 K8s 和 SLURM 等调度器/编排器的 HPC/GPU 集群的有效容量。我们通过阅读源代码、作业提交脚本以及工作负载即将运行的硬件信息，在集群看到作业之前预测其实际需求。我们还会标记我们认为即将发生的故障，并展示研究人员可以自行应用的行级优化建议。问题：数据中心的实际利用率大约只有30%到40%。用户请求的资源比实际需要的多，这是因为风险不对称：过度请求虽然不好，因为它成本高昂且浪费了本可以被其他人使用的算力，但请求不足会导致作业在运行中途失败，让你损失数天的工作成果。因此，每个人都会过度请求两到三倍的资源。我们曾在一个国家级HPC集群上测量了一个月，在12.2万个作业中，59%的计算被浪费了。按照相同硬件的按需云服务价格计算，这意味着该集群一个月内浪费了大约850万美元的计算资源。这种模式在大规模计算行业中也类似，如量化基金、AI实验室和制造业。我们四人曾在最大的量化基金和HPC设施中运行HPC和GPU训练工作负载。Ismaeel在EPCC（爱丁堡并行计算中心，英国国家级HPC站点）跟随Adrian Jackson进行研究，期间构建了首个多模态HPC资源预测器：该模型摄入作业源代码、提交脚本、硬件遥测和集群元数据，以估算实际所需计算量。在EPCC自有集群的真实工作负载数据集上，其表现比任何其他基线高出34%，而且在同一预测任务上，性能大约是前沿通用LLM（经过提示）的8倍。这些结果让我们相信，这个问题可以通过软件解决。Expanse 会安装在每个节点上，并接入 SLURM（或 K8s 调度器）。它会实时采集集群的硬件遥测数据（DCGM、CUPTI、Cgroups、网络/IO监控），从而为你的硬件性能创建自定义嵌入。我们会扫描即将通过 SLURM/K8s 提交的所有工作负载（嵌入作业的生命周期，因此你无需更改提交方式），然后将这些信息输入我们的深度学习模型，在提交时向研究人员提供准确的资源推荐、故障检测和优化建议。我们会微调特定于集群的模型，随着你运行更多工作负载，这些模型会变得越来越精准。由于作业崩溃的后果不对称，我们的模型被训练为过度配置而非配置不足。我们还提供不确定性估计和p90值，让用户可以选择自己的风险承受能力。我们向集群用户提供三种能力：(1) 提交时的资源预测。我们预测作业实际所需的GPU显存、利用率、内存、CPU和运行时间，并提供置信区间。基于这些预测，我们还能展示OOM及其他内存相关问题的故障预测，以及提高作业在硬件上利用率的代码行级优化建议。(2) 实时可观测性。在作业运行时，我们通过仪表盘展示正在采集的遥测数据，直观呈现硬件状态以及工作负载在代码栈分析中的位置。我们动态分析工作负载，在保持信息丰富的同时实现低个位数的开销。(3) 故障诊断。如果工作负载失败，我们会利用收集的所有数据，对堆栈分析和硬件遥测进行关联分析，展示面向解决方案的日志。这些日志只有一两行，不仅告诉你作业失败时发生了什么，还会说明原因以及如何通过代码行级建议进行修复。我们的方法有何不同：目前大多数集群的现有技术要么是使用 sacct（SLURM 数据库）中每个用户的历史平均值；要么是手写规则/启发式策略；或者是前沿 LLM 编码代理。对于 sacct 中每个用户的历史平均值，一旦集群中提交了新类型的工作负载或代码级别发生变化，模型就会变得极不准确。对于 LLM 基线，我们向它们提供了所运行工作负载的提交脚本和源代码，并赋予了它们在集群中编码工具的完整能力，但它们的表现相当差。我们将 Expanse 与当时的现有技术（Gemini 3.5 pro、Claude Opus 4.8、GPT 5.5、Codex 5.3）进行基准测试，结果比它们高出 8 倍。你可能会想，随着这些模型规模扩大和性能提升，它们可能会在这个任务上击败我们；然而，我们没有看到模型大小或迭代次数与准确率提升之间存在相关性。实际上，Claude Haiku 在很多工作负载上的表现甚至优于 Opus，而之前迭代的模型准确率也保持相同甚至略有提升。即使是专门的代码模型，如 Codex 5.3，表现也很差（准确率与 GPT5.5 相当）。这些模型在真空中推理，缺乏对源代码（理解底层数据流和计算模式）以及硬件遥测和拓扑（理解集群性能模式）等多模态输入的原生支持，因此无法准确预测工作负载所需的资源。此外，Expanse 会持续更新其内部模型，确保随着集群上运行更多工作负载，预测越来越准确，从而能够很好地适应新硬件或工作负载模式的变化。LLM 非常擅长编写代码和超参数搜索，但它们需要 Expanse 来完成自动研究的完整智能体循环。我们的工具非常容易集成到这些智能体中，我们已经使 CLI 工具对 LLM 友好。有关 LLM 评估的更多详情，请查看：<a href="https://x.com/ismaeel_bashir_/status/2059683849404383283" rel="nofollow">https://x.com/ismaeel_bashir_/status/2059683849404383283</a>我们目前正在以付费试点的方式接入客户。定价按集群确定。我们提供两周的测量窗口，期间我们会安装、采集并向数据中心运营商报告可回收的算力，随后在一个部门进行付费试点部署，收取固定月费，除非范围扩大，否则以相同价格续约。如果你运营着 HPC/GPU 集群（SLURM 或 K8s，100+ GPU），我们很乐意交流。我们会在集群的一部分安装一周，发送一份关于可回收算力的书面报告，然后由你决定是否继续。如果你尝试过类似方案但效果不佳，我们非常想听听原因。另外，如果你希望预测的故障模式在本帖中没有提及，请在本帖中留言，我们会回复说明模型是否已能捕获，或者需要添加什么才能实现。我从没想过自己会站在 launch HN 的对面 :)。即使你不运营集群，我们也欢迎你的反馈。对我们方法的任何想法、你在集群上运行工作负载的经验，甚至你认为我们错在哪里——我们都乐于倾听。Tally Ho!

查看原文

查看缓存全文

缓存时间: 2026/06/01 16:43

# Launch HN: Expanse (YC P26) – 解锁闲置的GPU算力来源：https://news.ycombinator.com/item?id=48356312 大家好，我们是 Ismaeel、Eren、Yafet 和 Nikodem。我们构建了 Expanse (https://expanse.sh/)，旨在提升运行 Kubernetes 和 SLURM 等调度器/编排器的 HPC/GPU 集群的有效容量。我们会读取源代码、作业提交脚本以及即将运行工作负载的硬件信息，在集群看到作业之前就预测出其实际需求。同时，我们还会标记即将发生的故障，并为研究人员提供可自行实现的代码级优化建议。 **问题**：数据中心的实际利用率仅约30%到40%。用户申请的算力远超实际所需，原因在于不对称风险：超额申请虽然成本高昂且浪费了他人可用的容量，但申请不足会导致作业中途崩溃，数天的工作付诸东流。因此，每个人都会超额申请两到三倍。我们曾在一个国家级HPC集群上测量了一个月，在12.2万个作业中，59%的计算量被浪费。若按该硬件按需云费率计算，该集群一个月浪费的计算资源价值约850万美元。这种模式在大规模计算行业（如量化基金、AI实验室和制造业）中也普遍存在。我们四人曾在最大的量化基金和HPC设施中运行过HPC和GPU训练工作负载。Ismaeel 在 Adrian Jackson 指导下于 EPCC（爱丁堡并行计算中心，英国国家HPC站点）进行了研究，构建了首个多模态HPC资源预测模型：该模型通过吸收作业源代码、提交脚本、硬件遥测和集群元数据，来准确预估实际所需计算量。在 EPCC 自身集群的真实工作负载数据集上，该模型比任何其他基线方法准确率高出34%，且比同样预测任务的前沿通用大语言模型（LLM）表现优异约8倍。这些结果让我们确信，该问题可以通过软件解决。 Expanse 安装在每个节点上，并接入 SLURM（或 K8s 调度器）。我们摄取集群的实时硬件遥测数据（DCGM、CUPTI、Cgroups、网络/IO监控），为硬件的性能特征创建自定义嵌入。我们会扫描通过 SLURM/K8s 提交的所有工作负载（接入作业生命周期，用户无需改变提交方式），并将这些数据输入我们的深度学习模型，在提交时向研究人员提供准确的资源推荐、故障检测和优化建议。我们微调特定于集群的模型，随着更多工作负载的运行，模型会越来越精准。考虑到作业崩溃会造成不对称后果，我们的模型被训练为倾向于过度配置而非配置不足。我们还提供不确定性估计和p90值，让用户可以根据自己的风险承受能力做出选择。我们为集群用户提供三种能力： (1) **提交时的资源预测**：预测作业实际所需的GPU显存、利用率、内存、CPU和墙钟时间，并给出置信区间。基于这些预测，我们还能输出OOM及其他内存相关问题的故障预测，以及代码级优化建议，以提高作业在硬件上的利用率。 (2) **实时可观测性**：作业运行时，我们通过仪表盘展示所收集的遥测数据，直观呈现硬件状况以及工作负载在代码栈性能分析中的位置。我们动态分析工作负载，在提供丰富信息的同时将开销控制在较低的单数百分比。 (3) **故障诊断**：如果工作负载失败，我们会利用收集的所有数据，对栈分析和硬件遥测进行关联分析，输出面向解决方案的日志。这些日志仅有一两行，不仅告诉你作业失败时发生了什么，还解释原因并提供代码级的修复建议。 **我们方法的独特之处**：大多数集群的现有技术要么依赖 sacct（SLURM 会计数据库）中的每用户历史平均值；要么使用手工编写的规则/启发式方法；或采用前沿的LLM编码智能体。对于 sacct 历史平均值，一旦集群提交了新类型的工作负载或代码级别发生变化，模型就会变得极其不准确。至于LLM基线，我们为其提供了提交脚本和工作负载的源代码，并赋予它在集群中完整的编码能力，但它的表现非常差。我们将 Expanse 与当时的最先进模型（Gemini 3.5 Pro、Claude Opus 4.8、GPT 5.5、Codex 5.3）进行了基准测试，性能提升了8倍。你可能会想，随着这些模型的规模扩大和性能提升，它们可能在这一任务上超越我们；然而，我们没有看到模型大小或迭代次数与准确率提升之间存在相关性。实际上，Claude Haiku 在许多工作负载上的表现优于 Opus，而之前版本的模型准确率与之相同甚至稍好。即使是专门用于编码的模型，如 Codex 5.3，表现也很糟糕（准确率与GPT 5.5相当）。这些模型在真空中推理，没有原生支持源代码（用于理解底层数据流和计算模式）以及硬件遥测和拓扑（用于理解集群性能模式）等多模态输入，因此无法准确预测工作负载所需的资源。此外，Expanse 持续更新其内部模型，确保随着集群上运行更多工作负载，预测越来越准确，从而很好地适应新硬件或工作负载模式的变化。LLM 非常擅长编写代码和超参数搜索，但它们需要 Expanse 来完成自动研究的完整智能体循环。将我们的工具集成到这些智能体中非常容易，我们的 CLI 工具已设计为对 LLM 友好。有关我们 LLM 评估的更多详情，请参阅：https://x.com/ismaeel_bashir_/status/2059683849404383283 我们目前正在为付费试点客户提供服务。定价按集群确定。我们提供两周的测量窗口，在此期间我们会安装、摄取数据并向数据中心运营商报告可回收容量，随后在一个部门进行固定月费的付费试点部署，如果范围未扩大则以相同费率续约。如果你运行HPC/GPU集群（SLURM 或 K8s，100+ GPU），我们很愿意聊一聊。我们会在你的集群中一个部分安装一周，发送一份关于可回收容量的书面报告，由你决定是否继续。如果你尝试过类似方案但未成功，我们非常希望了解原因。如果帖子中没有提及你希望我们能够预测的某种故障模式，请在此主题中留言，我们将回复说明模型是否已经能捕捉到，或者需要添加什么才能实现。我从没想过自己有一天会站在 Launch HN 的另一边 :) 即使你不运行集群，我们也非常欢迎你的意见。对我们方法的任何想法、你在集群上运行工作负载的经验，甚至你认为我们哪里有错误——我们都乐于倾听。加油！

Launch HN: Expanse (YC P26) – 解锁闲置的GPU算力

相似文章

所以，SpaceX成了新的算力房东，算力成了新的杠杆点，每笔交易最终都关乎谁控制着大规模GPU的控制权

@bastani_behnam：我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点，成本仅为一小部分……

Anthropic 正在扩展到 Colossus 2，将使用 GB200

Launch HN: Hyper (YC P26) – 公司大脑，驱动智能体开发

Claude 更高用量限制及与 SpaceX 的计算资源合作（3 分钟阅读）

提交意见反馈