EMA: 面向学习型系统的高效模型自适应方法
摘要
本文介绍了EMA,一种面向学习型系统的模型自适应系统,能够在降低训练和标注成本的同时,提升系统在不断演化环境中的性能。
arXiv:2605.13942v1 公告类型:新
摘要:机器学习(ML)越来越多地被用于优化系统性能,例如资源管理和网络模拟等任务。与传统ML任务(如图像分类)不同,网络化系统通常在异构、长期运行且动态变化的环境状态下运行,其中输入条件(例如网络负载)和操作目标可能随时间变化以及不同场景而变化。现有的学习型系统对自适应的支持不足,导致模型训练成本高昂、数据收集庞大、系统性能下降以及响应缓慢。
本文介绍了EMA,这是首个支持学习型系统以最小操作开销适应不断变化环境的模型自适应系统。EMA采用系统驱动、以数据为中心的方法,能够适应多样化的系统和模型设计,同时解决两个关键部署挑战。首先,它通过引入状态转换器来减少昂贵的模型训练,该转换器将新环境的输入状态与先前相似状态对齐,从而使模型能够热启动自适应。其次,它解决了数据标注这一常被忽视且成本高昂的过程——即为探索和训练各种系统决策收集真实数据——通过优先标注高价值数据,同时平衡训练与标注成本之间的权衡。在八个代表性学习型系统上的评估表明,EMA将自适应成本(例如GPU训练时间)降低了14.9%-42.4%,同时将系统性能(例如网络吞吐量)提升了6.9%-31.3%。
查看缓存全文
缓存时间: 2026/05/15 06:25
# EMA:面向学习型系统的高效模型适配 来源:https://arxiv.org/html/2605.13942 Xinyu Chen∗ 伊利诺伊大学厄巴纳-香槟分校 美国 Yihan Zhang∗ 伊利诺伊大学厄巴纳-香槟分校 美国 Yan Liang 香港科技大学 香港,中国 Yaqi Qiao 伊利诺伊大学厄巴纳-香槟分校 美国 Fan Lai 伊利诺伊大学厄巴纳-香槟分校 美国 ###### 摘要 机器学习(ML)日益被用于优化系统性能,应用于资源管理和网络模拟等任务。与传统ML任务(如图像分类)不同,网络系统通常运行在异构、长期运行且动态变化的环境状态中,其中输入条件(如网络负载)和操作目标可能随时间及不同设置而改变。现有学习型系统对适配的支持不足,导致模型训练成本高昂、数据收集量大、系统性能下降,且响应缓慢。本文提出了EMA,这是首个支持学习型系统以最小操作开销适应不断变化环境的模型适配系统。EMA采用系统驱动、数据为中心的方法,能够兼容多样的系统和模型设计,同时解决两个关键的部署挑战。首先,它通过引入状态转换器来减少昂贵的模型训练,该转换器将新环境的输入状态与先前相似的状态对齐,使模型能够热启动适配。其次,它解决了经常被忽视但代价高昂的数据标记过程——即收集真实反馈以探索和训练不同系统决策——通过优先标记高效用数据,同时平衡训练与标记成本之间的权衡。在八个代表性学习型系统上的评估表明,EMA将适配成本(如GPU训练时间)降低了14.9–42.4%,同时将系统性能(如网络吞吐量)提高了6.9–31.3%。 ∗ 表示同等贡献。在UIUC期间完成的工作 ††版权:无 ## 1. 引言 机器学习(ML)已成为优化系统和网络的日益强大的工具,其应用涵盖广域网(WAN)上的流量工程 (Perry et al., 2023; Xu et al., 2023) 和视频流 (Mao et al., 2017; Yan et al., 2020),流调度 (Li et al., 2024; Ðukić et al., 2019; Tian et al., 2025),网络模拟 (Zhang et al., 2021a; Yang et al., 2022),以及云端资源管理 (Qiu et al., 2020, 2024; Mao et al., 2019; Zhang et al., 2021b)。这些系统采用了广泛的学习技术,从线性回归(LR) (Zhang et al., 2021b) 和随机森林 (Li et al., 2024) 等经典模型,到深度学习方法 (Perry et al., 2023)(包括强化学习(RL) (Mao et al., 2017))乃至大语言模型(LLM) (Wu et al., 2024)。通过学习操作数据中的潜在相关性,学习型系统在自动化和决策质量上已证明优于传统手工设计的启发式方法。 尽管取得了成功,这些系统的有效性关键取决于其模型与底层*环境状态*的对齐程度——即系统输入、工作负载和目标的联合分布。与传统ML任务(如图像分类)不同,系统部署涉及多样且不断演变的环境。变化可能源于基础设施的差异(例如,集群规模和硬件类型 (Yan et al., 2020)),支持的工作负载(例如,流和作业大小的分布 (Tian et al., 2025))以及操作目标(例如,跨租户的服务水平目标 (Qiu et al., 2020))。即使在同一个环境内,其状态也可能随时间变化(例如,流量动态、工作负载演变和机器升级)。如果没有及时的模型适配,系统性能可能会急剧下降,有时甚至超过80%(§2),这一根本挑战在Microsoft的操作经验中得到了回应 (Liang et al., 2020)。 然而,现有学习型系统在很大程度上忽视了对其高效(模型)适配的设计。支持每个新环境通常需要在大量系统轨迹上进行调优,这可能需要数小时 (Liang et al., 2023; Wang et al., 2024) 并花费数千美元的GPU资源 (Wu et al., 2024)。因此,适配缓慢、昂贵,并且对于要求快速响应运行时动态的生产系统来说往往不切实际(§2)。最近的进展探索了基于插件的系统支持 (Qiu et al., 2024),但大多数是临时且特定于任务的,例如通过带宽容量归一化网络信号 (Tian et al., 2025)。它们通常需要侵入式的系统修改(例如,将元学习器插入模型架构 (Qiu et al., 2024))。更糟糕的是,现实世界中的系统适配通常涉及昂贵的数据标记——这一过程收集真实反馈(即标签),供模型探索各种系统决策的影响并收敛(例如,替代的网络攻击修复策略)。这些标签高度依赖于环境,通常需要在受控部署中重放工作负载、构建并运行模拟器,或征求专家标注(例如,来自网络操作员 (Zhang et al., 2024))。这在先前工作中在很大程度上被忽视了,但却可能主导端到端的适配开销(§2)。 本文介绍EMA,一个模型适配系统,采用数据为中心的方法来自动化学习型系统适应多样且不断演变的环境这一重复且艰巨的任务,仅需几行集成代码(§3)。EMA利用了以下洞察:系统通常是长期运行的,从而在部署过程中积累了训练好的模型和操作数据的存储库。当出现新的适配请求(例如,将学习系统部署到一个新的环境状态)时,EMA会识别一个具有类似状态的先前环境,并重新利用其模型和数据作为*操作知识*来热启动适配(例如,训练)。在适配过程中,它会监控系统性能并有选择地获取新标签。 EMA解决了实际部署中的两个基本挑战。首先,它必须能够跨环境实现高效且可泛化的操作知识迁移,以避免“重新发明轮子”,尽管存在任务、模型架构和遥测的变化。与通常需要侵入式系统更改的现有适配技术 (Qiu et al., 2024) 不同,EMA对系统输入数据应用轻量级的一次性转换,完全在模型和系统逻辑之外。它将输入投影到一个潜在状态空间,识别具有相似状态分布的先前环境,并推导出一个变换来对齐新输入分布与源分布。弥合这种状态差异使得EMA能够重用训练好的模型权重和数据(§4.1)。其次,实现高效适配需要解决模型训练与数据标记之间固有的成本矛盾。标记大量数据会推高收集成本,但可以通过向模型暴露更广泛的数据覆盖范围来减少训练成本,从而实现更快的收敛和更好的准确性。此外,标记成本因输入而异(例如,评估调度策略时,为作业分配2倍与10倍机器的差异),并且标记数据对改善系统性能的帮助程度会随着训练的进行而变化。EMA引入了一个成本感知的标记代理,优先标记预期每单位成本能带来更大模型性能改进的数据(§4.2)。在运行时,EMA通过成本效益的视角协调训练和标记,决定何时以及标记多少数据以最大化整体成本效益。它进一步管理模型和状态存储库的缓存,以便在请求之间进行未来重用(§4.3)。 我们在来自SIGCOMM、NSDI和OSDI的七个代表性系统上评估了EMA:用于流大小预测(使用LR模型)的Flux (Ðukić et al., 2019)、用于WAN流量工程(使用DL)的DOTE (Perry et al., 2023)、用于数据中心流模拟(使用LSTM)的MimicNet (Zhang et al., 2021a)、用于微服务资源管理(使用RL)的FIRM (Qiu et al., 2020)、用于自适应比特率流(ABR)(使用RL)的Pensieve (Mao et al., 2017),以及用于ABR和集群作业调度(使用LLM)的NetLLM (Wu et al., 2024)。我们的评估(§6)显示,与最先进的工作 (Qiu et al., 2024; Zhang et al., 2024) 相比,EMA将适配成本(如GPU时间)降低了14.9–42.4%,并将系统适配速度加速了2.3–15.3倍,同时将适配后的系统性能(如网络吞吐量和视频流中的用户体验)提高了6.9–31.3%。 总之,我们做出了以下贡献: - • 我们提出了首个支持多样化学习型系统的通用模型适配系统; - • 我们引入了一种新颖的以数据为中心的方法,在优化数据效率的同时重新利用操作知识; - • 我们在七个学习系统上评估了EMA,展示了其在增强实际部署方面的实质性收益。 #### 伦理 本工作不涉及任何伦理问题。 ## 2. 背景与动机 构建高性能的学习型系统本质上是迭代且劳动密集型的 (Liang et al., 2020)。开发人员必须策划大量系统输入(如作业需求或网络轨迹),并通过受控部署中的重放运行、模拟或征求专家标注 (Zhang et al., 2024) 来收集相应的系统反馈(如不同调度下的任务完成时间)作为训练标签。然后,他们需要在广泛的模型设计空间(如LR、LSTM或LLM)中进行导航,以平衡系统性能和运行时开销。即使经过精心设计和调优,操作条件也极少保持稳定。学习型系统的输入状态通常会在三个关键环境维度上变化:*基础设施*(如网络容量或集群规模)、*工作负载*(如流大小或作业到达分布)和*操作目标*(如延迟-吞吐量-公平性权衡)。即使在同一部署中,这些状态也可能随时间变化,例如由于资源和工作负载的变化 (Yan et al., 2020)。 见标题(a) Sizeless (Eismann et al., 2021) 性能变化 见标题(b) FIRM (Qiu et al., 2020) 性能随应用而变 图1. 学习型系统的部署通常面临不同的部署环境和操作目标,需要高效的适配。 #### 环境变化导致性能漂移 为了实现高性能,学习型系统通常会在特定环境的轨迹上对其ML模型进行调优。然而,这带来了双刃剑的成本:环境变化很容易导致系统性能大幅下降。为了说明这一点,我们分析了Sizeless (Eismann et al., 2021),一个基于DL的用于预测无服务器函数执行时间的系统。使用真实的CloudBandit (Lazuka et al., 2022) 生产工作负载,我们在三个代表性场景中评估其性能:(i) 在与训练相同的环境中部署,(ii) 支持新的无服务器函数,以及 (iii) 在新的基础设施(如硬件)上支持相同的函数。图1(a) 显示该系统在其原始环境中表现良好,但其决策质量在新函数(即“新应用”)上大幅下降,并在新基础设施(即“新环境”)下进一步崩溃。我们在FIRM (Qiu et al., 2020)(一个基于学习的微服务资源调度器,图1(b))中观察到类似趋势:部署全局模型而不进行特定于应用的适配会使系统性能在跨应用时降低4.5–79.2%。 见标题 图2. 在FLUX(网络调度的流大小预测)中,系统性能随作业到达(流特征)而变化。即使采用持续学习(CL),模型性能也远低于最佳设置[^1]。 #### 系统适配带来效率和质量挑战 缓解性能漂移需要快速且成本效益高的模型适配,因为适配延迟直接转化为系统周转降级、SLO违规和收入损失(§6.2)。最近的系统,如Caravan (Zhang et al., 2024),探索了用于网内模型的在线学习。然而,即使是模型微调,特别是随着基于DL或LLM的AIOps (Wang et al., 2025) 的日益普及,也可能需要数小时 (Wu et al., 2024)。在延迟敏感的设置中,如实时网络监控和攻击响应 (Jafri et al., 2024),适配必须在几分钟甚至几秒内完成(例如,图1及更多在第6.2节)。 [^1]: 最佳设置代表一个假设的系统模型,可以访问所有相关数据和无限资源进行训练。
相似文章
AEM:用于多轮智能体强化学习的自适应熵调制
本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。
面向类别不平衡的模型无关元学习适应方法
孟菲斯大学研究团队提出 HAMR——一种模型无关的元学习框架,通过双层优化与邻域感知重采样,在六个不平衡 NLP 数据集上自适应地为困难样本与少数类重新赋权。
MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架
MetaEvo 提出了一种两阶段框架,用于基于LLM的智能体的持续进化,利用基于偏好的优化来增强原则抽象和用于经验重用的模块化架构,在推理基准测试上优于强基线。
快慢学习:迈向持续适应的大语言模型 [R]
本文提出了一种用于大语言模型的快慢训练框架,该框架结合参数更新与上下文优化,以提高样本效率并减少持续学习过程中的灾难性遗忘。
通过参数化记忆扩展自进化智能体
来自阿里巴巴/Qwen和北京大学的研究人员提出了TMEM——一种自进化参数化记忆框架。该框架利用在线LoRA权重更新,使LLM智能体能够在单个回合内真正从经验中学习,而非仅依赖提示空间中的记忆。TMEM在多个基准测试(包括LoCoMo、LongMemEval-S和CL-Bench)上均优于基于摘要和基于检索的基线方法。