Launch HN: Expanse (YC P26) – 解锁闲置的GPU算力
摘要
Expanse 是一家创业公司,通过预测作业资源需求并提供优化建议,提高GPU/HPC集群的利用率,解决常见的过度请求资源导致实际利用率仅为30-40%的问题。
<p>嘿,HN,我们是 Ismaeel、Eren、Yafet 和 Nikodem。我们建立了 Expanse(<a href="https://expanse.sh/">https://expanse.sh/</a>),旨在提高运行 K8s 和 SLURM 等调度器/编排器的 HPC/GPU 集群的有效容量。我们通过阅读源代码、作业提交脚本以及工作负载即将运行的硬件信息,在集群看到作业之前预测其实际需求。我们还会标记我们认为即将发生的故障,并展示研究人员可以自行应用的行级优化建议。</p><p>问题:数据中心的实际利用率大约只有30%到40%。用户请求的资源比实际需要的多,这是因为风险不对称:过度请求虽然不好,因为它成本高昂且浪费了本可以被其他人使用的算力,但请求不足会导致作业在运行中途失败,让你损失数天的工作成果。因此,每个人都会过度请求两到三倍的资源。</p><p>我们曾在一个国家级HPC集群上测量了一个月,在12.2万个作业中,59%的计算被浪费了。按照相同硬件的按需云服务价格计算,这意味着该集群一个月内浪费了大约850万美元的计算资源。这种模式在大规模计算行业中也类似,如量化基金、AI实验室和制造业。</p><p>我们四人曾在最大的量化基金和HPC设施中运行HPC和GPU训练工作负载。Ismaeel在EPCC(爱丁堡并行计算中心,英国国家级HPC站点)跟随Adrian Jackson进行研究,期间构建了首个多模态HPC资源预测器:该模型摄入作业源代码、提交脚本、硬件遥测和集群元数据,以估算实际所需计算量。在EPCC自有集群的真实工作负载数据集上,其表现比任何其他基线高出34%,而且在同一预测任务上,性能大约是前沿通用LLM(经过提示)的8倍。这些结果让我们相信,这个问题可以通过软件解决。</p><p>Expanse 会安装在每个节点上,并接入 SLURM(或 K8s 调度器)。它会实时采集集群的硬件遥测数据(DCGM、CUPTI、Cgroups、网络/IO监控),从而为你的硬件性能创建自定义嵌入。我们会扫描即将通过 SLURM/K8s 提交的所有工作负载(嵌入作业的生命周期,因此你无需更改提交方式),然后将这些信息输入我们的深度学习模型,在提交时向研究人员提供准确的资源推荐、故障检测和优化建议。我们会微调特定于集群的模型,随着你运行更多工作负载,这些模型会变得越来越精准。由于作业崩溃的后果不对称,我们的模型被训练为过度配置而非配置不足。我们还提供不确定性估计和p90值,让用户可以选择自己的风险承受能力。</p><p>我们向集群用户提供三种能力:</p><p>(1) 提交时的资源预测。我们预测作业实际所需的GPU显存、利用率、内存、CPU和运行时间,并提供置信区间。基于这些预测,我们还能展示OOM及其他内存相关问题的故障预测,以及提高作业在硬件上利用率的代码行级优化建议。</p><p>(2) 实时可观测性。在作业运行时,我们通过仪表盘展示正在采集的遥测数据,直观呈现硬件状态以及工作负载在代码栈分析中的位置。我们动态分析工作负载,在保持信息丰富的同时实现低个位数的开销。</p><p>(3) 故障诊断。如果工作负载失败,我们会利用收集的所有数据,对堆栈分析和硬件遥测进行关联分析,展示面向解决方案的日志。这些日志只有一两行,不仅告诉你作业失败时发生了什么,还会说明原因以及如何通过代码行级建议进行修复。</p><p>我们的方法有何不同:目前大多数集群的现有技术要么是使用 sacct(SLURM 数据库)中每个用户的历史平均值;要么是手写规则/启发式策略;或者是前沿 LLM 编码代理。对于 sacct 中每个用户的历史平均值,一旦集群中提交了新类型的工作负载或代码级别发生变化,模型就会变得极不准确。对于 LLM 基线,我们向它们提供了所运行工作负载的提交脚本和源代码,并赋予了它们在集群中编码工具的完整能力,但它们的表现相当差。我们将 Expanse 与当时的现有技术(Gemini 3.5 pro、Claude Opus 4.8、GPT 5.5、Codex 5.3)进行基准测试,结果比它们高出 8 倍。</p><p>你可能会想,随着这些模型规模扩大和性能提升,它们可能会在这个任务上击败我们;然而,我们没有看到模型大小或迭代次数与准确率提升之间存在相关性。实际上,Claude Haiku 在很多工作负载上的表现甚至优于 Opus,而之前迭代的模型准确率也保持相同甚至略有提升。即使是专门的代码模型,如 Codex 5.3,表现也很差(准确率与 GPT5.5 相当)。这些模型在真空中推理,缺乏对源代码(理解底层数据流和计算模式)以及硬件遥测和拓扑(理解集群性能模式)等多模态输入的原生支持,因此无法准确预测工作负载所需的资源。此外,Expanse 会持续更新其内部模型,确保随着集群上运行更多工作负载,预测越来越准确,从而能够很好地适应新硬件或工作负载模式的变化。LLM 非常擅长编写代码和超参数搜索,但它们需要 Expanse 来完成自动研究的完整智能体循环。我们的工具非常容易集成到这些智能体中,我们已经使 CLI 工具对 LLM 友好。有关 LLM 评估的更多详情,请查看:<a href="https://x.com/ismaeel_bashir_/status/2059683849404383283" rel="nofollow">https://x.com/ismaeel_bashir_/status/2059683849404383283</a></p><p>我们目前正在以付费试点的方式接入客户。定价按集群确定。我们提供两周的测量窗口,期间我们会安装、采集并向数据中心运营商报告可回收的算力,随后在一个部门进行付费试点部署,收取固定月费,除非范围扩大,否则以相同价格续约。</p><p>如果你运营着 HPC/GPU 集群(SLURM 或 K8s,100+ GPU),我们很乐意交流。我们会在集群的一部分安装一周,发送一份关于可回收算力的书面报告,然后由你决定是否继续。如果你尝试过类似方案但效果不佳,我们非常想听听原因。另外,如果你希望预测的故障模式在本帖中没有提及,请在本帖中留言,我们会回复说明模型是否已能捕获,或者需要添加什么才能实现。</p><p>我从没想过自己会站在 launch HN 的对面 :)。即使你不运营集群,我们也欢迎你的反馈。对我们方法的任何想法、你在集群上运行工作负载的经验,甚至你认为我们错在哪里——我们都乐于倾听。</p><p>Tally Ho!</p>
查看缓存全文
缓存时间: 2026/06/01 16:43
# Launch HN: Expanse (YC P26) – 解锁闲置的GPU算力
来源:https://news.ycombinator.com/item?id=48356312
大家好,我们是 Ismaeel、Eren、Yafet 和 Nikodem。我们构建了 Expanse (https://expanse.sh/),旨在提升运行 Kubernetes 和 SLURM 等调度器/编排器的 HPC/GPU 集群的有效容量。我们会读取源代码、作业提交脚本以及即将运行工作负载的硬件信息,在集群看到作业之前就预测出其实际需求。同时,我们还会标记即将发生的故障,并为研究人员提供可自行实现的代码级优化建议。
**问题**:数据中心的实际利用率仅约30%到40%。用户申请的算力远超实际所需,原因在于不对称风险:超额申请虽然成本高昂且浪费了他人可用的容量,但申请不足会导致作业中途崩溃,数天的工作付诸东流。因此,每个人都会超额申请两到三倍。
我们曾在一个国家级HPC集群上测量了一个月,在12.2万个作业中,59%的计算量被浪费。若按该硬件按需云费率计算,该集群一个月浪费的计算资源价值约850万美元。这种模式在大规模计算行业(如量化基金、AI实验室和制造业)中也普遍存在。
我们四人曾在最大的量化基金和HPC设施中运行过HPC和GPU训练工作负载。Ismaeel 在 Adrian Jackson 指导下于 EPCC(爱丁堡并行计算中心,英国国家HPC站点)进行了研究,构建了首个多模态HPC资源预测模型:该模型通过吸收作业源代码、提交脚本、硬件遥测和集群元数据,来准确预估实际所需计算量。在 EPCC 自身集群的真实工作负载数据集上,该模型比任何其他基线方法准确率高出34%,且比同样预测任务的前沿通用大语言模型(LLM)表现优异约8倍。这些结果让我们确信,该问题可以通过软件解决。
Expanse 安装在每个节点上,并接入 SLURM(或 K8s 调度器)。我们摄取集群的实时硬件遥测数据(DCGM、CUPTI、Cgroups、网络/IO监控),为硬件的性能特征创建自定义嵌入。我们会扫描通过 SLURM/K8s 提交的所有工作负载(接入作业生命周期,用户无需改变提交方式),并将这些数据输入我们的深度学习模型,在提交时向研究人员提供准确的资源推荐、故障检测和优化建议。我们微调特定于集群的模型,随着更多工作负载的运行,模型会越来越精准。考虑到作业崩溃会造成不对称后果,我们的模型被训练为倾向于过度配置而非配置不足。我们还提供不确定性估计和p90值,让用户可以根据自己的风险承受能力做出选择。
我们为集群用户提供三种能力:
(1) **提交时的资源预测**:预测作业实际所需的GPU显存、利用率、内存、CPU和墙钟时间,并给出置信区间。基于这些预测,我们还能输出OOM及其他内存相关问题的故障预测,以及代码级优化建议,以提高作业在硬件上的利用率。
(2) **实时可观测性**:作业运行时,我们通过仪表盘展示所收集的遥测数据,直观呈现硬件状况以及工作负载在代码栈性能分析中的位置。我们动态分析工作负载,在提供丰富信息的同时将开销控制在较低的单数百分比。
(3) **故障诊断**:如果工作负载失败,我们会利用收集的所有数据,对栈分析和硬件遥测进行关联分析,输出面向解决方案的日志。这些日志仅有一两行,不仅告诉你作业失败时发生了什么,还解释原因并提供代码级的修复建议。
**我们方法的独特之处**:大多数集群的现有技术要么依赖 sacct(SLURM 会计数据库)中的每用户历史平均值;要么使用手工编写的规则/启发式方法;或采用前沿的LLM编码智能体。对于 sacct 历史平均值,一旦集群提交了新类型的工作负载或代码级别发生变化,模型就会变得极其不准确。至于LLM基线,我们为其提供了提交脚本和工作负载的源代码,并赋予它在集群中完整的编码能力,但它的表现非常差。我们将 Expanse 与当时的最先进模型(Gemini 3.5 Pro、Claude Opus 4.8、GPT 5.5、Codex 5.3)进行了基准测试,性能提升了8倍。
你可能会想,随着这些模型的规模扩大和性能提升,它们可能在这一任务上超越我们;然而,我们没有看到模型大小或迭代次数与准确率提升之间存在相关性。实际上,Claude Haiku 在许多工作负载上的表现优于 Opus,而之前版本的模型准确率与之相同甚至稍好。即使是专门用于编码的模型,如 Codex 5.3,表现也很糟糕(准确率与GPT 5.5相当)。这些模型在真空中推理,没有原生支持源代码(用于理解底层数据流和计算模式)以及硬件遥测和拓扑(用于理解集群性能模式)等多模态输入,因此无法准确预测工作负载所需的资源。此外,Expanse 持续更新其内部模型,确保随着集群上运行更多工作负载,预测越来越准确,从而很好地适应新硬件或工作负载模式的变化。LLM 非常擅长编写代码和超参数搜索,但它们需要 Expanse 来完成自动研究的完整智能体循环。将我们的工具集成到这些智能体中非常容易,我们的 CLI 工具已设计为对 LLM 友好。有关我们 LLM 评估的更多详情,请参阅:https://x.com/ismaeel_bashir_/status/2059683849404383283
我们目前正在为付费试点客户提供服务。定价按集群确定。我们提供两周的测量窗口,在此期间我们会安装、摄取数据并向数据中心运营商报告可回收容量,随后在一个部门进行固定月费的付费试点部署,如果范围未扩大则以相同费率续约。
如果你运行HPC/GPU集群(SLURM 或 K8s,100+ GPU),我们很愿意聊一聊。我们会在你的集群中一个部分安装一周,发送一份关于可回收容量的书面报告,由你决定是否继续。如果你尝试过类似方案但未成功,我们非常希望了解原因。如果帖子中没有提及你希望我们能够预测的某种故障模式,请在此主题中留言,我们将回复说明模型是否已经能捕捉到,或者需要添加什么才能实现。我从没想过自己有一天会站在 Launch HN 的另一边 :) 即使你不运行集群,我们也非常欢迎你的意见。对我们方法的任何想法、你在集群上运行工作负载的经验,甚至你认为我们哪里有错误——我们都乐于倾听。
加油!
相似文章
所以,SpaceX成了新的算力房东,算力成了新的杠杆点,每笔交易最终都关乎谁控制着大规模GPU的控制权
本文分析了SpaceX如何成为AI公司的主要算力提供商,其交易包括向Anthropic和Cursor提供GPU,以及谷歌通过SpaceX探索轨道数据中心。
@bastani_behnam:我们刚刚发布了如何在 27B 模型上解锁 +50% 推理容量——无需新 GPU、无需新节点,成本仅为一小部分……
OpenInfer 展示“垂直拆解”,通过单节点 AMD EPYC CPU 与 Nvidia L40S GPU 协同执行量化层,并配合自定义 SLA 感知调度器,将 Qwen 3.5 27B 的吞吐量提升约 50%。
Anthropic 正在扩展到 Colossus 2,将使用 GB200
Anthropic 正在扩大与 SpaceX 的合作,将从六月开始利用 GB200 容量在 Colossus 2 集群上扩展 Claude 推理。
Launch HN: Hyper (YC P26) – 公司大脑,驱动智能体开发
Hyper 是一个共享的公司大脑,它摄入内部数据(Slack、文档、电子邮件等),生成知识图谱,并采用事件与事实混合记忆系统,使 AI 智能体能够拥有更好的上下文,从而更有效地执行复杂任务。
Claude 更高用量限制及与 SpaceX 的计算资源合作(3 分钟阅读)
Anthropic 宣布与 SpaceX 达成合作,接入 Colossus 1 数据中心的庞大计算能力,从而提升 Claude Code 和 Claude API 的用量限制。