STARIXNet：面向云平台实时资源分配的多变量多属性深度学习方法

arXiv cs.LG 2026/06/09 04:00 论文

摘要

STARIXNet是一种轻量级神经网络，通过捕获系统指标之间的多变量时空关系来改进云资源分配，优先考虑服务稳定性而非预测准确性。在沃尔玛部署后，它在保持服务可靠性的同时实现了10%-50%的成本节约。

arXiv:2606.07565v1 公告类型：新摘要：云平台中微服务的智能伸缩对于缓解计算成本不断上升同时避免服务中断至关重要。现有解决方案局限于单变量空间，通常仅关注CPU使用率来驱动伸缩决策。此外，它们将问题视为纯粹的预测任务，注重预测精度而忽略了低估和系统响应延迟的更大风险。替代方案计算复杂度高，使其不适用于大规模实时部署。针对这些挑战，我们提出了STARIXNet，一种轻量级神经网络，通过捕获多个系统指标之间的时空关系，在多变量空间中指导资源分配决策。STARIXNet对多个准依赖属性进行建模，特别是(S)季节性、(T)时间、(A)自回归(I)积分和e(X)外生模式，然后实施聚合策略来确定伸缩决策，优先考虑服务稳定性，其次是成本效率，而非原始预测精度。我们通过在真实环境中对现有解决方案进行基准测试，实证证明了STARIXNet的性能。STARIXNet已在沃尔玛的关键生产微服务中部署，实现了10\%到50\%的有形节约，此外还通过改善服务稳定性和客户体验带来了无形收益。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:46

# STARIXNet：面向云平台实时资源分配的多变量多属性深度学习方法
来源：https://arxiv.org/html/2606.07565
###### 摘要

在云平台中，对微服务进行智能缩放对于降低不断增长的计算成本同时避免服务中断至关重要。当前的解决方案局限于单变量空间，通常仅关注CPU使用率来驱动缩放决策。此外，它们将问题视为纯粹的预测任务，侧重于预测精度，而忽视了低估风险和系统响应延迟等更大问题。替代方案计算复杂，使其在大规模实时部署中不切实际。为了解决这些挑战，我们提出了STARIXNet，这是一个轻量级神经网络，通过捕捉多个系统指标之间的时空关系，在多变量空间中指导资源分配决策。STARIXNet对多个准依赖属性进行建模，特别是季节性、时间性、自回归求和以及外生模式，然后实施聚合策略以最终确定缩放决策，优先考虑服务稳定性，其次是成本效率，而非原始预测准确性。我们通过在真实环境中对标现有解决方案，实证展示了STARIXNet的性能。STARIXNet已在沃尔玛的关键生产微服务中部署，实现了10%到50%的实际节省，此外还通过提升服务稳定性和客户体验带来了无形收益。

水平Pod自动缩放（HPA）、多变量时间序列预测、时空建模、轻量级神经网络

## 1. 引言

云平台长期依赖智能自动缩放来动态调整资源以应对工作负载波动。这种弹性在保持峰值负载下服务可靠性的同时，对于控制成本（通过释放闲置容量）至关重要（Islam等，2012（https://arxiv.org/html/2606.07565#bib.bib25））。传统上，自动缩放策略分为响应式——根据阈值规则添加或移除资源——和主动式——预测未来需求并提前缩放（Lorido-Botran等，2014（https://arxiv.org/html/2606.07565#bib.bib6））。响应式机制，例如当CPU使用率超过固定阈值时进行扩容，虽然简单，但时常滞后于突发的负载激增，导致性能下降或违反服务等级协议（SLA）（Chen等，2018（https://arxiv.org/html/2606.07565#bib.bib26））。相反，主动式方法试图预测工作负载趋势以提前预置容量（Islam等，2012（https://arxiv.org/html/2606.07565#bib.bib25））。理论上，主动缩放可以提高响应速度，但在实践中，当前的实现存在显著局限性。

大多数主动式自动缩放系统专注于单变量预测，通常跟踪单一指标（如CPU使用率或请求率）作为工作负载的唯一指标（Lorido-Botran等，2014（https://arxiv.org/html/2606.07565#bib.bib6））。这种狭隘的视角忽略了现代云应用的复杂多资源动态特性。例如，应用的性能可能同时受CPU、内存、网络和I/O的影响；如果另一个资源成为瓶颈，仅基于CPU的缩放决策可能变得次优（Ahuja等，2025（https://arxiv.org/html/2606.07565#bib.bib10））。仅依赖单一指标也可能使自动缩放变得脆弱。例如，仅基于CPU的策略可能会在CPU峰值时导致过度预置，即使内存或网络资源未充分利用，导致资源使用效率低下（Lorido-Botran等，2014（https://arxiv.org/html/2606.07565#bib.bib6））。此外，许多基于预测的自动缩放解决方案按粗粒度间隔进行更新，例如15分钟甚至长达1小时的频率（Luo等，2024（https://arxiv.org/html/2606.07565#bib.bib27）；Hua等，2023（https://arxiv.org/html/2606.07565#bib.bib35）），以降低计算成本。然而，这严重制约了对快速工作负载变化的响应能力。然而，通过缩短预测间隔或使用高频指标来提高敏捷性，会给监控和缩放基础设施带来巨大开销（Islam等，2012（https://arxiv.org/html/2606.07565#bib.bib25））。因此，运维人员需要在响应速度与系统开销或稳定性之间进行权衡（Islam等，2012（https://arxiv.org/html/2606.07565#bib.bib25））。实际上，对每个短期波动都做出反应的天真设计往往会导致振荡（抖动），即资源被反复添加和移除，损害稳定性并增加运维成本。总之，现有的单变量预测方法常常难以快速响应变化，对系统状态的视角有限，并且缩放行为易出现代价高昂的波动。

本文介绍STARIXNet，一种用于实时决策的轻量级时空深度学习解决方案，以解决上述不足。STARIXNet不是监控单个信号，而是学习多个指标的联合模型，包括CPU使用率、内存、网络吞吐量等。它学习这些指标随时间的隐藏相关性，从而实现对应用负载模式的全方位洞察。此外，STARIXNet基于不同的时间序列信号属性和解决方案目标，提供多种预测选项。通过采用轻量级深度神经网络（DNN）架构，同时捕捉长期趋势和短期峰值，STARIXNet能够在不增加复杂生成式、循环式和/或注意力式模型架构的大量计算负担的情况下实现可靠预测。此外，STARIXNet超越了纯粹的预测精度，将预测模块与决策引擎紧密集成，该决策引擎实施一种优先考虑稳定性而非点精度的聚合策略。原则上，系统倾向于基于时空上下文的、一致的、渐进式调整，而不是对每一个微小的预测偏差做出响应式振荡。该策略明确平衡了性能和成本：它及时响应以维护服务等级协议（SLA）并满足服务等级目标（SLO），同时抑制不必要的资源转换，这是先前方法常常忽视的权衡。

本文的主要贡献总结如下：

**多变量轻量级架构：** 我们创新性地设计了一个深度学习模型，该模型融合多个资源指标、外部特征，学习准依赖属性，并捕捉多变量工作负载预测的时空模式。与引入显著复杂性的重型注意力模型（Han等，2024（https://arxiv.org/html/2606.07565#bib.bib21））相比，我们的架构针对实时操作进行了优化，输入维度线性可扩展。它学习跨指标交互，比单变量预测器更准确地预测资源需求，同时保持高效和可部署性。这种设计独特地支持高频率的决策更新和分散式部署，未来可能成为微服务边车模式或代理型AI解决方案的一部分。

**可定制的稳定性优先缩放策略：** 我们的解决方案采用客户端可定制的聚合和决策制定策略，默认策略强调系统稳定性和SLA合规性，而不是天真地追逐每一个预测波动。通过在执行缩放动作之前平滑和验证预测输出，STARIXNet避免了在许多激进型自动缩放解决方案中观察到的快速振荡。这种新颖的策略通过确保缩放决策对瞬态噪声具有鲁棒性，从而解决了已知的响应-可靠性权衡问题（Islam等，2012（https://arxiv.org/html/2606.07565#bib.bib25）），进而减少抖动和长期成本。

**大规模真实世界部署：** 我们报告了STARIXNet在大规模云平台中的实现情况，实时处理跨地理分布数据中心的数百个微服务。该框架与现有编排系统（如Kubernetes）无缝集成，展示了其实用集成能力。据我们所知，这是首批在此规模的生产环境中成功验证的实时多变量深度学习自动缩放方法之一。

**可衡量的性能提升：** 通过大量实验、真实流量下的实时基准测试以及实时A/B测试，我们表明STARIXNet相比当前实践替代方案取得了显著提升。在部署后分析中，我们注意到相比默认的基于规则的响应式方法、其他深度学习方法、统计方法以及单变量解决方案，云资源成本降低了10%至50%，同时SLA违规率也有所降低。在平均响应时间和缩放效率等指标上，它超越了先进基线。这些改进凸显了在实时资源管理中协调多变量学习和稳定性感知策略的价值。

本文其余部分结构如下：第2节（https://arxiv.org/html/2606.07565#S2）总结了相关文献的发现。第3节（https://arxiv.org/html/2606.07565#S3）更深入地描述我们的解决方案及数学表示。第4节（https://arxiv.org/html/2606.07565#S4）讨论我们的实验设置，包括实时基准测试、客户端模拟及客户端接入后评估。第5节（https://arxiv.org/html/2606.07565#S5）总结了从实验和已接入的关键微服务中观察到的影响和结果，以及经验教训和实际意义。最后，我们在第6节（https://arxiv.org/html/2606.07565#S6）中总结本文工作。

## 2. 背景

早期的云自动缩放机制主要使用简单的基于阈值的规则或排队论公式来触发缩放动作。商业和开源云平台，如AWS Auto Scaling和Kubernetes水平Pod自动缩放（HPA），通常允许用户设置静态的上限和下限，例如平均CPU使用率或请求队列长度。当指标超过这些阈值时，添加或移除资源（Lorido-Botran等，2014（https://arxiv.org/html/2606.07565#bib.bib6）；Mao和Humphrey，2010（https://arxiv.org/html/2606.07565#bib.bib9））。这种基于规则的自动缩放方法简单直接且能实时响应，但需要仔细调优，并且在动态环境中往往表现次优（Lorido-Botran等，2014（https://arxiv.org/html/2606.07565#bib.bib6）），原因是其响应性多于主动性，且忽视了Pod启动延迟。选择合适的阈值和冷却时间需要专家对每个应用的负载模式有深入了解（Lorido-Botran等，2014（https://arxiv.org/html/2606.07565#bib.bib6））。

最近的动态资源分配方法，例如（Chen，2023（https://arxiv.org/html/2606.07565#bib.bib1）；Chen等，2023（https://arxiv.org/html/2606.07565#bib.bib2）；Mello等，2017（https://arxiv.org/html/2606.07565#bib.bib3）），采用分布式编排和共识算法，通过关注无状态应用管理来确保快速故障恢复，尽管在这些设计中，完整的微服务分解仍受系统限制所约束。作者在（Balla等，2020（https://arxiv.org/html/2606.07565#bib.bib4））中提出了一种替代HPA的方案，该方案首先垂直优化给定Pod的资源，然后使用来自虚拟环境的指标来调整资源定义并相应调整水平缩放，无需用户指定参数。然而，这些解决方案仍然是响应式的，并且局限于跟踪单一的负载信号，即CPU使用率。

机器学习和AI的最新进展已导致从传统的基于规则的资源分配到智能预测框架的范式转变。时间序列分析框架是解决阈值方法响应滞后问题的开创性工作之一，通过预测未来请求率并主动相应缩放，从而相比响应式规则改善了SLA遵守情况（Calheiros和Buyya，2015（https://arxiv.org/html/2606.07565#bib.bib7）；Li和Xia，2011（https://arxiv.org/html/2606.07565#bib.bib8））。然而，这些方法通常假设平稳性和同方差性，并且尽管现代服务中多维工作负载普遍存在，大多数方法仍然是单变量的（Lorido-Botran等，2014（https://arxiv.org/html/2606.07565#bib.bib6））。为了克服这些限制，研究者探索了更灵活的机器学习模型，包括基于Transformer和注意力的架构（Mao和Humphrey，2010（https://arxiv.org/html/2606.07565#bib.bib9）；Ahuja等，2025（https://arxiv.org/html/2606.07565#bib.bib10））。一个值得注意的例子是自适应水平Pod自动缩放（AHPA），它通过将基于分解的时间序列预测与阿里云容器服务的性能建模相结合，增强了在业务需求波动下的Kubernetes自动缩放（Zhou等，2023（https://arxiv.org/html/2606.07565#bib.bib5））。类似地，（Rubak和Taheri，2023（https://arxiv.org/html/2606.07565#bib.bib13））提出了一种机器学习驱动的解决方案，以应对Kubernetes中的过度预置和预置不足问题。他们的方法利用经典模型，包括线性回归、支持向量机和多层感知器（MLP）神经网络，基于预期的用户需求预测资源需求，从而在标准HPA所能提供的基础上提高了服务质量和成本效率。然而，尽管在季节性波动期间实现了鲁棒性，这些解决方案在处理不一致或不规律的工作负载模式方面仍然存在疑问。

循环神经网络（RNN），特别是长短期记忆（LSTM）和门控循环单元（GRU）架构，已广泛用于建模时间模式（Lai等，2018（https://arxiv.org/html/2606.07565#bib.bib18））。（Prachitmutita等，2018（https://arxiv.org/html/2606.07565#bib.bib34））的工作利用LSTM-MLP混合模型预测Web流量，双向LSTM被用于（Yan等，2021（https://arxiv.org/html/2606.07565#bib.bib20）），而（Ouhame等，2021（https://arxiv.org/html/2606.07565#bib.bib19））提出了混合卷积神经网络（CNN）和LSTM（CNN-LSTM）架构来捕捉云工作负载中的空间和时间依赖性。然而，这些解决方案广泛处理单变量工作负载信号，并且以其高计算复杂度为特点，限制了在实时环境中的大规模采用。

作者在（Toka等，2020（https://arxiv.org/html/2606.07565#bib.bib16））中，在短期评估循环中使用了多个机器学习模型，允许它们在“赢家通吃”的融合策略下竞争。他们的多步预测缩放引擎，通过仿真和真实Web轨迹进行评估，展示了改进的适应性和效率。他们还引入了一个紧凑的管理参数，以帮助平衡资源预置与SLA遵守。

更近期，图神经网络（GNN）被用于（Luo等，2024（https://arxiv.org/html/2606.07565#bib.bib27）），其中作者引入了一种新颖的时空

STARIXNet：面向云平台实时资源分配的多变量多属性深度学习方法

相似文章

STAR-Teaming：面向自动化LLM红队的策略-响应多重网络方法

面向多模态在线分布式工业异常检测的参数高效多类智能调度

ChurnNet：一种用于流失预测的优化现代AI

@laneburgett: 当 @SpaceX 发射火箭时，我们正在使用 @Starlink 远程推理我们训练的挖掘机机器人模型，该模型基于…

STRIDE：通过子集扰动的稀疏恢复进行训练数据归因

提交意见反馈