一种估算 AI 功耗的更快速方法
摘要
来自麻省理工学院(MIT)和 IBM 的研究人员开发了一种快速工具,可在几秒钟内估算 AI 功耗,速度远超传统的模拟方法,有助于优化数据中心的能源效率。
<p>据劳伦斯伯克利国家实验室称,由于人工智能的爆炸式增长,预计到 2028 年,数据中心的耗电量将占美国总用电量的 <a href="https://newscenter.lbl.gov/2025/01/15/berkeley-lab-report-evaluates-increase-in-electricity-demand-from-data-centers/" target="_blank">高达 12%</a>。提高数据中心能源效率是科学家们努力使 AI 更具可持续性的途径之一。</p><p>为了实现这一目标,来自麻省理工学院和 MIT-IBM Watson AI 实验室的研究人员开发了一种快速预测工具,该工具可以告诉数据中心运营商,在特定的处理器或 AI 加速芯片上运行特定的 AI 工作负载将消耗多少电力。</p><p>与传统建模技术需要数小时甚至数天才能得出结果不同,他们的方法能在几秒钟内产生可靠的功率估算。此外,他们的预测工具可以应用于广泛的硬件配置——包括尚未部署的新兴设计。</p><p>数据中心运营商可以利用这些估算值,在多个 AI 模型和处理器之间有效地分配有限的资源,从而提高能源效率。此外,该工具还可以让算法开发者和模型提供商在部署新模型之前评估其潜在的能源消耗。</p><p>“AI 可持续性挑战是一个我们必须回答的紧迫问题。由于我们的估算方法快速、便捷并提供直接反馈,我们希望它能促使算法开发者和数据中心运营商更多地考虑减少能源消耗,”麻省理工学院的博士后、<a href="https://arxiv.org/pdf/2604.20105" target="_blank">该技术研究论文</a> 的第一作者 Kyungmi Lee 表示。</p><p>与她共同发表论文的有电气工程与计算机科学(EECS)研究生 Zhiye Song;IBM 研究院和 MIT-IBM Watson AI 实验室的研究主管 Eun Kyung Lee 和 Xin Zhang;IBM Fellow、IBM 研究院可持续计算首席科学家以及 MIT-IBM Watson AI 实验室成员 Tamar Eilam;以及资深作者、麻省理工学院校长、Vannevar Bush 电气工程与计算机科学教授以及 MIT-IBM Watson AI 实验室成员 Anantha P. Chandrakasan。该研究将于本周在 IEEE 系统和软件性能分析国际研讨会上发表。</p><p><strong>加速能源估算</strong></p><p>在数据中心内部,成千上万强大的图形处理单元(GPU)执行操作以训练和部署 AI 模型。特定 GPU 的功耗会根据其配置及其处理的工作负载而变化。</p><p>许多用于预测能源消耗的传统方法涉及将工作负载分解为单独的步骤,并逐步模拟 GPU 内部每个模块的使用情况。但是,像模型训练和数据预处理这样的 AI 工作负载极其庞大,以这种方式进行模拟可能需要数小时甚至数天。</p><p>Lee 说:“作为运营商,如果我想比较不同的算法或配置以找到最节能的执行方式,如果单次模拟需要几天时间,那将变得非常不切实际。”</p><p>为了加快预测过程,麻省理工学院的研究人员试图使用细节较少但可以更快估算的信息。他们发现,AI 工作负载通常具有许多可重复的模式。他们可以利用这些模式生成可靠但快速功率估算所需的信息。</p><p>在许多情况下,算法开发者编写程序以尽可能高效地在 GPU 上运行。例如,他们使用结构良好的优化措施,将工作分布在并行处理核心上,并以最高效的方式移动数据块。</p><p>“软件开发者使用的这些优化创建了规则的结构,这正是我们试图利用的,”Lee 解释道。</p><p>研究人员开发了一个轻量级估算模型,称为 EnergAIzer,它可以从这些优化中捕捉 GPU 的功耗模式。</p><p><strong>准确的评估</strong></p><p>但是,虽然他们的估算很快,研究人员发现它并未考虑到所有的能源成本。例如,每次 GPU 运行程序时,都需要固定的能源成本来设置和配置该程序。然后,每次 GPU 对一块数据执行操作时,都必须支付额外的能源成本。</p><p>由于硬件波动或在访问或移动数据时发生冲突,GPU 可能无法利用所有可用带宽,导致操作速度减慢并随着时间的推移消耗更多能源。</p><p>为了包含这些额外成本和方差,研究人员从 GPU 收集真实测量值,以生成应用于其估算模型的校正项。</p><p>“这样,我们就能获得既快速又非常准确的估算,”她说。</p><p>最终,用户可以提供他们的工作负载信息,例如他们想要运行的 AI 模型以及要处理的用户输入的数量和长度,EnergAIzer 将在几秒钟内输出能源消耗估算值。</p><p>用户还可以更改 GPU 配置或调整运行速度,以查看这些设计选择如何影响整体功耗。</p><p>当研究人员使用实际 GPU 的真实 AI 工作负载信息测试 EnergAIzer 时,它仅以约 8% 的误差估算功耗,这与可能需要数小时才能产生结果的传统方法相当。</p><p>只要硬件在短期内没有发生剧烈变化,他们的方法也可用于预测未来 GPU 和新兴设备配置的功耗。</p><p>在未来,研究人员希望在新款 GPU 配置上测试 EnergAIzer,并扩大模型规模,使其能够应用于协作运行工作负载的多个 GPU。</p><p>“要对可持续性产生真正影响,我们需要一种能够为硬件设计者、数据中心运营商和算法开发者提供跨整个堆栈的快速能源估算解决方案的工具,以便他们都能更加意识到功耗问题。有了这个工具,我们向这一目标迈出了一步,”Lee 说。</p><p>这项研究部分由 MIT-IBM Watson AI 实验室资助。</p>
查看缓存全文
缓存时间:
2026/05/08 08:50
# 一种更快的 AI 功耗估算方法
来源: https://news.mit.edu/2026/faster-way-to-estimate-ai-power-consumption-0427
根据劳伦斯伯克利国家实验室的估计,由于人工智能的爆发式增长,到 2028 年,数据中心的电力消耗将占美国总电量的 12% (https://newscenter.lbl.gov/2025/01/15/berkeley-lab-report-evaluates-increase-in-electricity-demand-from-data-centers/)。提高数据中心能效是科学家努力使 AI 更具可持续性的方式之一。
朝着这一目标,来自麻省理工学院(MIT)和 MIT-IBM Watson AI 实验室的研究人员开发了一种快速预测工具,该工具可以告诉数据中心运营商在特定处理器或 AI 加速芯片上运行特定 AI 工作负载将消耗多少电力。
与传统建模技术需要数小时甚至数天才能得出结果不同,他们的方法能在几秒钟内产生可靠的功耗估算值。此外,他们的预测工具可应用于广泛的硬件配置——甚至包括尚未部署的新兴设计。
数据中心运营商可以利用这些估算值在多个 AI 模型和处理器之间有效分配有限资源,从而提高能效。此外,该工具还可以让算法开发者和模型提供者在部署新模型之前评估其潜在的能源消耗。
“AI 可持续性挑战是我们必须回答的一个紧迫问题。由于我们的估算方法快速、便捷并能提供直接反馈,我们希望它能促使算法开发者和数据中心运营商更积极地考虑减少能源消耗,”麻省理工学院博士后、该技术论文的作者 Kyungmi Lee 表示 (https://arxiv.org/pdf/2604.20105)。
该论文的共同作者包括电气工程和计算机科学(EECS)研究生 Zhiye Song;IBM 研究院和 MIT-IBM Watson AI 实验室的研究经理 Eun Kyung Lee 和 Xin Zhang;IBM 研究员、IBM 研究院可持续计算首席科学家以及 MIT-IBM Watson AI 实验室成员 Tamar Eilam;以及资深作者、麻省理工学院校长、电气工程和计算机科学 Vannevar Bush 教授以及 MIT-IBM Watson AI 实验室成员 Anantha P. Chandrakasan。这项研究将在本周举行的 IEEE 系统与软件性能分析国际研讨会上发表。
**加快能源估算速度**
在数据中心内部,成千上万强大的图形处理单元(GPU)执行操作以训练和部署 AI 模型。特定 GPU 的功耗会因其配置和处理的工作负载而异。
许多用于预测能源消耗的传统方法涉及将工作负载分解为单个步骤,并逐步模拟 GPU 内部每个模块的使用情况。但是,像模型训练和数据预处理这样的 AI 工作负载极其庞大,以这种方式模拟可能需要数小时甚至数天。
“作为运营商,如果我想要比较不同的算法或配置以找到最节能的方案,如果单次模拟需要几天时间,那就变得非常不切实际了,”Lee 说。
为了加快预测过程,麻省理工学院的研究人员试图使用可以更快速估算的不那么详细的信息。他们发现 AI 工作负载通常具有许多可重复的模式。他们可以利用这些模式生成可靠且快速功耗估算所需的信息。
在许多情况下,算法开发者编写程序以尽可能高效地在 GPU 上运行。例如,他们使用结构良好的优化来在并行处理核心之间分配工作,并以最高效的方式移动数据块。
“软件开发者使用的这些优化创造了一种规则结构,这正是我们试图利用的,”Lee 解释道。
研究人员开发了一种轻量级估算模型,称为 EnergAIzer,该模型从这些优化中捕获 GPU 的功耗模式。
**准确评估**
虽然他们的估算速度很快,但研究人员发现它并未考虑到所有能源成本。例如,每次 GPU 运行程序时,都需要固定的能源成本来设置和配置该程序。然后,每次 GPU 对一块数据执行操作时,都必须支付额外的能源成本。
由于硬件波动或访问或移动数据时的冲突,GPU 可能无法使用所有可用带宽,从而减慢操作速度并随着时间推移消耗更多能源。
为了包含这些额外成本和差异,研究人员收集了来自 GPU 的真实测量值,以生成应用于其估算模型的校正项。
“这样,我们可以获得既快速又非常准确的估算,”她说。
最终,用户可以提供他们的工作负载信息,例如他们想要运行的 AI 模型以及要处理的用户输入的数量和长度,EnergAIzer 将在几秒钟内输出能源消耗估算。
用户还可以更改 GPU 配置或调整运行速度,以查看此类设计选择如何影响整体功耗。
当研究人员使用来自实际 GPU 的真实 AI 工作负载信息测试 EnergAIzer 时,其功耗估算误差仅约为 8%,这与可能需要数小时才能产生结果的传统方法相当。
只要硬件在短期内不发生剧烈变化,他们的方法也可以用于预测未来 GPU 和新兴设备配置的功耗。
未来,研究人员希望在最新 GPU 配置上测试 EnergAIzer,并扩展模型规模,使其能够应用于协作运行工作负载的众多 GPU。
“要真正对可持续性产生影响,我们需要一种能够提供跨栈快速能源估算解决方案的工具,供硬件设计师、数据中心运营商和算法开发者使用,以便他们都能更了解功耗。借助此工具,我们朝着这一目标迈进了一步,”Lee 说。
这项研究部分由 MIT-IBM Watson AI 实验室资助。
相似文章
OpenAI Blog
# AI 与效率 来源: [https://openai.com/index/ai-and-efficiency/](https://openai.com/index/ai-and-efficiency/) 训练到 AlexNet 水平性能所需的总计算量(万亿浮点运算次/秒-天)。任意给定时间的最低计算点以蓝色显示,所有测量点以灰色显示。[2](https://openai.com/index/ai-and-efficiency/#citation-bottom-2),[5](https://openai.com/index/ai-and-efficiency/#citation-bottom-5),[6](https://openai.com/index/ai-and-efficiency/#citation-bottom-6),
OpenAI Blog
OpenAI 发布分析表明,自 2012 年以来,最大规模 AI 训练运行所使用的计算量以 3.4 个月的倍增周期呈指数级增长,累计增长 30 万倍,远远超过摩尔定律的增长速度。该分析预测这一趋势可能会继续,并呼吁增加学术 AI 研究经费以应对不断上升的计算成本。
NVIDIA Blog
Emerald AI 展示了电力柔性AI工厂如何自主调节电力消耗以稳定电网需求,该方案依托伦敦数据中心的 NVIDIA GPUs 及相关基础设施,在不干扰关键工作负载的前提下吸收峰值功率激增。
NVIDIA Blog
NVIDIA与Emerald AI在CERAWeek上公布了一种合作方案,将AI工厂视为灵活的电网资产,通过智能电力管理提升能效与电网可靠性。该举措联合多家主要能源公司,根据电网状况优化AI工作负载运行,同时实现每瓦特每秒令牌(tokens per second per watt)的最大化。
MIT News — Artificial Intelligence
MIT CSAIL及其他机构的研究人员推出了CompreSSM技术,该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型,从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。