评估机器学习资源利用需要模型生命周期评估
摘要
这篇立场论文认为,当前评估人工智能资源使用的方法不足,并倡导采用生命周期评估(LCA)来正确核算整个机器学习流程(从硬件制造到训练和推理)中的能源和环境成本。
arXiv:2606.07632v1 公告类型:新
摘要:正确核算人工智能(AI)系统的能源需求和环境影响对于研究人员、开发者、政策制定者和用户评估大规模构建系统的障碍是必要的。随着开发和部署AI系统所需的流程和底层基础设施日益复杂,以往仅关注单次训练运行或单个推理预测成本的AI效率评估方法已不再足够。在这篇立场论文中,我们阐述了应用生命周期评估来评估机器学习模型开发和部署流程的成本的必要性,以正确核算所需资源和下游影响。生命周期评估能够将AI系统及其底层基础设施整个生命周期中的成本纳入考虑,从物理计算硬件的隐含成本到训练和推理中的运营成本。
查看缓存全文
缓存时间: 2026/06/09 08:52
# 机器学习资源利用的评估需要模型生命周期评估 来源:https://arxiv.org/html/2606.07632 ###### 摘要 对人工智能系统的能耗和环境影响的准确核算,对于研究人员、开发者、政策制定者和用户评估构建大规模系统的障碍至关重要。随着开发和部署AI系统所需的流水线和底层基础设施日益复杂,以往侧重于单次训练或单次推理预测成本的AI效率评估方法已不再适用。在本立场论文中,我们阐述了应用生命周期评估来评估机器学习模型开发和部署流水线的成本,以正确核算所需资源和下游影响的必要性。生命周期评估能够整合AI系统及其底层基础设施全生命周期的成本,包括与物理计算硬件相关的隐含成本以及训练和推理中的运营成本。 机器学习, ICML ## 1. 引言 与任何新兴技术一样,了解资源利用情况和副产品对于配置必要的基础设施以及评估其下游社会影响都是必要的。人工智能也不例外,其资源需求仍在增长,但很大程度上尚不确定。当前的扩展范式——大型语言模型的性能持续受益于计算规模的增加——导致增长预测表明,到2030年数据中心将消耗超过10%的美国总能源需求(Green等,2024 (https://arxiv.org/html/2606.07632#bib.bib80);Shehabi等,2024 (https://arxiv.org/html/2606.07632#bib.bib121))。然而,这些估计的确定性差异很大,年度负荷增长预期相差超过4倍(Aljbour等,2024 (https://arxiv.org/html/2606.07632#bib.bib5))。降低这些预测的不确定性对于确保电力供应得到适当配置,同时避免对现有电网基础设施造成压力或增加个体用户的电价至关重要(联合立法审计与审查委员会,2024 (https://arxiv.org/html/2606.07632#bib.bib106))。正确的测量能够为政府和行业机构提供知情决策的依据,这些机构已承诺投入数千亿美元用于支持大规模机器学习模型开发和部署所需的计算硬件和能源基础设施,其成本堪比“大科学”项目(OpenAI,2025a (https://arxiv.org/html/2606.07632#bib.bib92);Bobrowsky,2025 (https://arxiv.org/html/2606.07632#bib.bib137);Isaac,2025 (https://arxiv.org/html/2606.07632#bib.bib90);Smith,2025 (https://arxiv.org/html/2606.07632#bib.bib85);Cai and Sophia,2025 (https://arxiv.org/html/2606.07632#bib.bib39);Parashar等,2023 (https://arxiv.org/html/2606.07632#bib.bib93))。然而,尽管AI成本不断上升且受AI系统影响的利益相关者范围广泛,我们用于评估机器学习模型资源需求及其社会经济影响的方法并未相应发展。 现有的评估ML模型资源消耗的方法通常局限于测量ML模型开发或部署生命周期中某个边际步骤的成本——即单次训练运行或推理预测的成本。系统的资源利用测量需要汇总并归因于其生产和使用的所有阶段,而这类侧重于单一阶段成本的方法可能无法考虑系统生命周期某一阶段效率改进对另一阶段资源的影响。幸运的是,分析制成品生命周期内资源需求和下游影响的技术已在工业生态学领域得到充分确立;即,生命周期评估(ISO 14040, ISO 14044 (ISO 14040:2006,2006 (https://arxiv.org/html/2606.07632#bib.bib51),2006 (https://arxiv.org/html/2606.07632#bib.bib52)))。生命周期评估(LCA)通过将资源消耗和排放分解到制造、使用和处置阶段,以及资源类型(如能源、碳排放、人类健康影响),来量化产品的影响。先前生命周期阶段的成本,如硬件制造和模型训练,被汇总并通过使用进行摊销。生命周期评估已用于半导体制造和计算硬件研究,以量化物理硬件制造、回收和使用的隐含和运营碳成本(Gupta等,2021 (https://arxiv.org/html/2606.07632#bib.bib42);Wu等,2022 (https://arxiv.org/html/2606.07632#bib.bib138);Schneider等,2025 (https://arxiv.org/html/2606.07632#bib.bib118);Ji等,2024 (https://arxiv.org/html/2606.07632#bib.bib184);Gupta等,2022 (https://arxiv.org/html/2606.07632#bib.bib151))。然而,将LCA系统应用于机器学习模型的方法尚处于萌芽阶段。 在本文中,我们阐述通过以下方式应用生命周期评估来评估机器学习模型在开发和部署过程中的效率和环境影响的必要性: 1. 呈现评估ML效率和资源利用的现有格局及其局限性(§2 (https://arxiv.org/html/2606.07632#S2)) 2. 概述如何通过将生命周期评估应用于机器学习模型来解决这些问题(§3 (https://arxiv.org/html/2606.07632#S3)) 3. 讨论将LCA应用于ML模型所带来的益处和洞见(§5 (https://arxiv.org/html/2606.07632#S5)) 4. 提供关于AI资源需求的替代视角(§4 (https://arxiv.org/html/2606.07632#S4)) 5. 说明实现ML模型生命周期评估所需的条件(§6 (https://arxiv.org/html/2606.07632#S6))。 ## 2. 现有评估ML资源需求方法的局限性 为应对机器学习模型日益增长的资源消耗,学界对以下两方面的科学探究显著增加:(1) 评估ML的资源消耗和环境影响,以及 (2) 设计高效的ML方法;这一点反映在众多研究综述(Menghani,2023 (https://arxiv.org/html/2606.07632#bib.bib108);Treviso等,2023 (https://arxiv.org/html/2606.07632#bib.bib112);Tay等,2022 (https://arxiv.org/html/2606.07632#bib.bib110);Wan等,2023 (https://arxiv.org/html/2606.07632#bib.bib107);Sui等,2025 (https://arxiv.org/html/2606.07632#bib.bib109)) 以及专门讨论该主题的出版场所(Rezagholizadeh等,2024 (https://arxiv.org/html/2606.07632#bib.bib117);Dao等,2025 (https://arxiv.org/html/2606.07632#bib.bib115);Wang等,2024a (https://arxiv.org/html/2606.07632#bib.bib116);Sadat Moosavi等,2023 (https://arxiv.org/html/2606.07632#bib.bib113)) 中。这些努力是理解AI和ML系统整体资源需求的必要初步步骤。然而,现有的努力往往依赖的假设并不能反映支撑现代AI系统的真实世界系统和工作负载。 见图注 图1:LCA能够跨日益复杂的ML模型开发和部署生命周期进行汇总。现代LLM的训练前和训练后流水线(例如,采用Tulu训练后配方的OLMo (Walsh等,2025 (https://arxiv.org/html/2606.07632#bib.bib91);Lambert等,2025 (https://arxiv.org/html/2606.07632#bib.bib60)))比经典的训练-测试设置具有更多的阶段;以及更多样化的推理方法 (Welleck等,2024 (https://arxiv.org/html/2606.07632#bib.bib174))。 ### 2.1 依赖效率的代理指标 广泛的效率指标推动了高效机器学习算法、模型架构和计算机系统的设计研究。例如,服务级别目标(SLO)已被用于优化云服务场景,其中部署模型以支持对延迟敏感的API。而移动和边缘环境的硬件限制催生了模型压缩方法,减少了模型的内存开销。同时,基于效率代理指标(如FLOPs)的理论研究产生了参数高效、数据高效和样本高效的ML架构和训练算法。尽管这类研究在效率代理指标上取得了改进,但这些代理指标通常与更具体的指标(如延迟和能量)相关性不高(Dehghani等,2022b (https://arxiv.org/html/2606.07632#bib.bib26);Fernandez等,2023 (https://arxiv.org/html/2606.07632#bib.bib31))。为了使资源利用的测量对寻求标准化或核算资源消耗的利益相关者具有信息价值,报告必须对应实际感兴趣的真实世界量。 ### 2.2 未能考虑ML模型生命周期日益增长的复杂性 以往关于机器学习模型资源使用和环境影响核算的努力主要集中在模型生命周期单一阶段消耗的资源——例如,大规模模型训练的能量或水使用(Strubell等,2020 (https://arxiv.org/html/2606.07632#bib.bib125);Patterson等,2021 (https://arxiv.org/html/2606.07632#bib.bib165);Faiz等,2024 (https://arxiv.org/html/2606.07632#bib.bib30);Morrison等,2025 (https://arxiv.org/html/2606.07632#bib.bib84)),单次推理预测的边际影响(Luccioni等,2024 (https://arxiv.org/html/2606.07632#bib.bib76);Fernandez等,2025a (https://arxiv.org/html/2606.07632#bib.bib34);Patel等,2024 (https://arxiv.org/html/2606.07632#bib.bib95);Wu等,2025 (https://arxiv.org/html/2606.07632#bib.bib140);Ding and Shi,2024 (https://arxiv.org/html/2606.07632#bib.bib149);Nguyen等,2024 (https://arxiv.org/html/2606.07632#bib.bib156)),或计算硬件制造的隐含成本(Li等,2025b (https://arxiv.org/html/2606.07632#bib.bib70),2024b (https://arxiv.org/html/2606.07632#bib.bib176))。然而,关注模型生命周期的单个阶段不足以测量与构建新机器学习模型或AI系统选择相关的总资源和环境影响。要评估AI系统的资源需求,必须核算并归因于开发和部署所有阶段消耗的资源。随着现代模型的复杂性不断增长,拥有定制化的部署和开发流水线,进行这样的评估变得越来越困难。例如,最先进的大型语言模型(图1 (https://arxiv.org/html/2606.07632#S2.F1))需要多个阶段的训练前和训练后处理,利用辅助模型进行合成数据生成、知识蒸馏和奖励建模;依赖各种推理时算法,并且可以部署在不同的硬件平台上。不断增长的模型流水线的每个阶段都给开发和部署的决策带来了进一步的复杂性——也给模型资源消耗和环境影响核算带来了额外的挑战。 ### 2.3 行业范围的预测未基于真实计算工作负载 对AI数据中心电力需求上升的担忧导致各种研究兴起,这些研究估计并预测数据中心能源使用的增长(Shehabi等,2024 (https://arxiv.org/html/2606.07632#bib.bib121);Green等,2024 (https://arxiv.org/html/2606.07632#bib.bib80);Aljbour等,2024 (https://arxiv.org/html/2606.07632#bib.bib5))。为了获得能源使用预测,这些研究依赖于对未来芯片出货量和能源效率的估计来预测计算硬件的总需求。行业层面的分析对于向电网基础设施开发者提供信息至关重要。鉴于基础设施交付周期长达数年,准确的行业预测使得电网基础设施能够建设出来以支持数据中心增加的需求容量,通常还会出现过剩。然而,这些研究依赖于对硬件利用率和能源效率的假设,这种抽象水平模糊了个体工作负载。这些假设使得无法评估机器学习研究人员和从业者开发和部署的模型的影响;也无法评估模型效率改进或设计选择的效果。 ## 3. 机器学习模型的生命周期评估 如前一节所述,现有的测量ML资源需求的努力是有限的:通常依赖于粗粒度的行业层面估计,未能测量实际关心的真实世界资源,或者只代表了AI系统总成本的一部分,而没有整合开发和部署生命周期的总成本。为了解决这些局限性,我们认为评估ML模型的资源需求需要生命周期评估。 生命周期评估(LCA;(Curran,2006 (https://arxiv.org/html/2606.07632#bib.bib23)))提供了一个方法论基础,通过核算制成品或服务在资源开采、材料加工、制造、使用和处置(即从摇篮到坟墓)过程中所需的资源和环境影响,来确定产品的环境和社会影响。具体而言,LCA是标准化的,并在两个独立的ISO标准中定义。ISO 14040规定了LCA的概念框架,而ISO 14044则规定了进行LCA的技术要求(ISO 14040:2006,2006 (https://arxiv.org/html/2606.07632#bib.bib51),2006 (https://arxiv.org/html/2606.07632#bib.bib52))。1 1具体来说,ISO 14040规定了LCA的阶段。相比之下,ISO 14044提供了如何进行LCA的要求和指南(例如,确定系统边界的考虑因素、评估数据质量的因素)。对于进行ML模型LCA,我们建议实践者参考ISO 14044中概述的做法。 LCA的核心是功能单位,它定义了一个过程所提供的价值的量化参考,可以在潜在系统之间进行比较。进而可以定义一个系统,该系统在资源和排放方面产生感兴趣的功能单位。在本节中,我们展示如何利用生命周期评估来实现对机器学习模型生产功能单位的总资源消耗和环境影响进行更全面的核算。我们考察ISO标准中定义的LCA的四个阶段:目标定义与范围界定、生命周期清单、生命周期影响评估和解释。 ### 3.1 目标定义与范围界定 LCA的第一阶段定义了对应于AI系统所提供服务及其约束的功能单位,以及界定研究中包含的过程和资源流的系统边界。 #### 3.1.1 机器学习的功能单位 根据进行LCA的利益相关者不同,功能单位和感兴趣的过程可能有所不同。例如,大型基础模型的机构开发者可能对开发一系列模型(形成模型系列)的环境影响和成本感兴趣。
相似文章
MLS-Bench:对 AI 系统在构建更优 AI 方面能力的全面与严格评估
本文介绍了 MLS-Bench,这是一个旨在评估 AI 系统能否发明具有通用性和可扩展性的机器学习方法,而非仅仅进行工程调优的基准测试。
观点:LLM推理应当以能量到令牌的生产来评估
本文主张,在计算、功耗、冷却和运营效率的约束下,LLM推理应当作为能量到令牌的生产来评估,并提出了如焦耳/令牌和经PUE调整的输送功率等新指标。
迈向评估工程:对现实环境中机器学习评估框架的实证研究
本文对57个机器学习评估框架进行了实证研究,识别了五个工作阶段中常见的操作挑战及其根本原因,并主张将评估工程作为一个独立的软件工程关注点。
AI 是否有一天会变得资源高效?
一场关于AI模型长期可持续性的讨论,质疑由于高昂的计算成本和对投资者资金的依赖,探讨资源效率的提升能否防止泡沫破裂。
AIED中LLMs的环境成本:报告与实践
本文探讨了AIED研究中缺乏对LLMs计算和环境成本标准化报告的问题,回顾了396篇AIED 2025会议论文,并提出了一种开源方法来测量和报告这些影响。