OpenG2G:用于 AI 数据中心与电网运行时协调的仿真平台
摘要
OpenG2G 是一个新的开源仿真平台,用于协调 AI 数据中心的工作负载与电力电网的需求,旨在帮助管理电力灵活性并减少并网延迟。
arXiv:2605.05519v1 公告类型:新提交
摘要:AI 日益增长的算力需求以及新建数据中心给电力电网带来了巨大的容量和可靠性挑战,导致新数据中心面临长达数年的并网延迟,进而阻碍了 AI 的发展。为了缓解这一压力,数据中心越来越多地响应电网信号提供快速的电力灵活性,即通过实时调整工作负载来增加或减少其电力消耗。
为了了解大型数据中心对电网的影响并促进有效协调策略的设计,我们构建了 OpenG2G,这是一个用于 AI 数据中心与电网运行时协调的仿真平台。我们展示了 OpenG2G 能够通过允许用户实现和比较各种控制范式(包括经典控制器、优化控制器和基于学习的控制器),并量化 AI 模型和部署选择如何影响数据中心的灵活性和协调结果,从而解答广泛的协调问题。这种多功能性得益于 OpenG2G 的模块化和可扩展架构:一个由生产级 AI 服务的真实测量数据驱动的数据中心后端,一个基于高保真电网模拟器的电网后端,以及一个将二者闭环连接的通用控制器接口。我们描述了 OpenG2G 的设计,并通过真实的电网场景和 AI 工作负载演示了其有效性。
查看缓存全文
缓存时间: 2026/05/08 07:45
# AI 数据中心-电网运行时协调仿真平台 来源: https://arxiv.org/html/2605.05519 Jae-Won Chung Zhirui Liang<sup>1</sup> Yanyong Mao Jiasi Chen Mosharaf Chowdhury Vladimir Dvorkin 密歇根大学 ###### 摘要 人工智能不断增长的算力需求以及新数据中心的建设给电力系统带来了巨大的容量和可靠性挑战,导致新数据中心接入电网的互联延迟长达数年,并制约了人工智能的发展。为了缓解这种压力,数据中心越来越多地根据电网信号提供快速的电力灵活性,即数据中心可以通过实时调整其工作负载来增加或减少电力消耗。为了理解大型数据中心对电网的影响并促进有效协调策略的设计,我们构建了 *OpenG2G*,一个用于 **AI 数据中心-电网运行时协调** 的仿真平台。我们展示了 OpenG2G 能够回答广泛的协调问题,允许用户实现和比较各种控制范式(包括经典、优化和基于学习的控制器),并量化 AI 模型和部署选择如何影响数据中心的灵活性以及协调结果。这种多功能性得益于 OpenG2G 模块化且可扩展的架构:由生产级 AI 服务真实测量数据驱动的数据中心后端、基于高保真电网仿真器构建的电网后端,以及连接两者的通用控制器接口。我们描述了 OpenG2G 的设计,并通过现实的电网场景和 AI 工作负载证明了其有用性。<sup>1</sup> <sup>1</sup> OpenG2G 已开源: https://github.com/gpu2grid/openg2g ## 1 引言 AI 工作负载消耗大量且快速增长的能源 [LBNL2024DataCenterEnergy](https://arxiv.org/html/2605.05519#bib.bib42); [IEADataCenterCooling2025](https://arxiv.org/html/2605.05519#bib.bib22); [bloombergnef25](https://arxiv.org/html/2605.05519#bib.bib23); [cbre2025](https://arxiv.org/html/2605.05519#bib.bib4)。单个现代 AI 数据中心的功耗轻松达到数十兆瓦,许多规划中的数据中心的规模达到吉瓦级 [openai-stargate](https://arxiv.org/html/2605.05519#bib.bib36); [xai-colossus](https://arxiv.org/html/2605.05519#bib.bib50); [meta-hyperion](https://arxiv.org/html/2605.05519#bib.bib29); [google-nextera](https://arxiv.org/html/2605.05519#bib.bib18)。作为规模参考,1 吉瓦大约是旧金山平均功耗的 $1.7 \times 1.7$ 倍 [ca-electricity-data](https://arxiv.org/html/2605.05519#bib.bib10)。这些负载的规模给电网运行带来了挑战。例如,电网在严格的电压限制下运行,以保护设备并防止级联服务中断 [PGE_Rule2](https://arxiv.org/html/2605.05519#bib.bib37)。像 AI 数据中心这样的大负载会在现有电网中显著干扰这些约束的满足。因此,电网运营商可能需要建设新的发电容量、扩建输电和配电基础设施以可靠地输送电力、维持额外的备用容量以管理数据中心的可变性,并减轻因这些负载未得到妥善安置而导致服务中断的风险。这是导致数据中心建设出现多年延误的主要原因之一,从而限制了 AI 容量扩张及整体 AI 进展 [ai-grid-impact-arxiv25](https://arxiv.org/html/2605.05519#bib.bib5)。 为了帮助解决这一挑战,数据中心越来越愿意提供 **电力灵活性** [google-flexibility-blog25](https://arxiv.org/html/2605.05519#bib.bib45); [google-flexibility-blog26](https://arxiv.org/html/2605.05519#bib.bib46); [colangelo2025ai](https://arxiv.org/html/2605.05519#bib.bib9),以便更快地上线更多容量。例如,当电网因其他来源承受较大负载时,数据中心可以减少其电力消耗;相反,当电网电力过剩时<sup>2</sup>,数据中心可以在其容量限制内增加负载以吸收过剩电力。这得以实现是因为数据中心中的 AI 工作负载允许广泛的控制旋钮,例如模型选择、部署配置和运行时控制,这些可以通过调整来平衡数据中心的服务性能与电力消耗,而无需停止服务 [mlenergy-benchmark-neurips25](https://arxiv.org/html/2605.05519#bib.bib7); [mlenergy-benchmark-v3-arxiv26](https://arxiv.org/html/2605.05519#bib.bib8)。我们将这种涉及数据中心旋钮、电网运行决策和共享约束的运行时控制问题称为 **AI 数据中心-电网运行时协调**(§2)。<sup>3</sup> <sup>2</sup> 这可能源于对可再生能源发电和电力需求的不完美预测。 <sup>3</sup> 我们注意到,我们的范围是运行时控制,而非规划、选址或电网互联。 然而,这一协调问题尚不明晰,包括如何设计有效的控制器以及 AI 模型和部署选择如何影响数据中心的灵活性。这是因为现有研究在数据中心和电网两侧分散,真实性和建模假设各不相同,且缺乏统一的仿真框架来构建基础(§6)。为此,我们构建了 *OpenG2G*,一个用于模拟 AI 数据中心-电网运行时协调的开源库(§3)。OpenG2G 围绕仿真循环组合了三个可插拔组件:由生产级 AI 服务测量数据驱动的数据中心后端(例如,[mlenergy-benchmark-neurips25](https://arxiv.org/html/2605.05519#bib.bib7); [mlenergy-benchmark-v3-arxiv26](https://arxiv.org/html/2605.05519#bib.bib8))、包装传统电网仿真器的电网后端(例如,[opendss](https://arxiv.org/html/2605.05519#bib.bib12); [opendssdirect](https://arxiv.org/html/2605.05519#bib.bib24)),以及暴露数据中心和电网状态并发出作用于两侧的控 制动作的通用控制器实现接口。替换新的 AI 工作负载、电网拓扑/仿真器或控制器仅相当于编写一个 Python 子类。控制器接口足够灵活,支持从简单到复杂的各种控制范式,允许在相同场景下进行头对头比较。我们以推理作为关键 AI 工作负载<sup>4</sup>,从两个角度展示了 OpenG2G 的有用性。 <sup>4</sup> 众所周知,推理占 AI 算力需求的 80-90% [nvidia-inference-estimation](https://arxiv.org/html/2605.05519#bib.bib20); [aws-inference-estimation](https://arxiv.org/html/2605.05519#bib.bib1); [patterson2021carbon](https://arxiv.org/html/2605.05519#bib.bib39); [polca-asplos24](https://arxiv.org/html/2605.05519#bib.bib38)。 首先,我们使用控制器接口实现经典反馈控制器(例如,在线反馈优化 (OFO) [bernstein2019real](https://arxiv.org/html/2605.05519#bib.bib2); [hauswirth2024optimization](https://arxiv.org/html/2605.05519#bib.bib19),下垂控制 [bollen2005voltage](https://arxiv.org/html/2605.05519#bib.bib3))和基于学习的控制器(例如,近端策略优化 (PPO) [ppo-arxiv17](https://arxiv.org/html/2605.05519#bib.bib41)),并对它们的协调结果进行头对头比较,展示如何使用 OpenG2G 探索控制器设计空间(§4)。其次,我们改变 AI 模型和部署选择,量化每种选择如何塑造数据中心的 **可行功率范围**(MW),进而影响运行时协调的空间(§5)。 总之,我们做出以下贡献: - 我们构建了 OpenG2G,一个用于模拟 AI 数据中心-电网运行时协调的开源库,其数据中心、电网和控制器组件 bridging 系统、机器学习和电网工程社区,以应对现代 AI 电力需求的能源/电网挑战。 - OpenG2G 捕获涵盖 AI 数据中心(例如,吞吐量、延迟)和电力系统(例如,电网电压)的指标,实现了对各种控制策略(例如,下垂、OFO、PPO)以及 AI 模型和部署选择对数据中心-电网协调结果影响的标准化比较和评估。 - 我们模拟了现代 LLM(例如,Llama、Qwen、GPT-OSS)推理与电网运行之间的协调,揭示了 AI 和电网运营指标之间的有利权衡,证明了 OpenG2G 为 AI 数据中心项目提供可操作设计决策的潜力。 ## 2 背景与问题表述 ### 2.1 AI 数据中心与电网 每个电力消费者,包括数据中心,都在 **母线 (bus)** 处连接到电网,母线由电力线连接。大量电力在 **源 (source)** 母线处进入建模网络:在配电设置中为变电站,或在输电设置中为发电机或更高电压的互联节点。图 1 的 Grid 框展示了一个连接有一个数据中心负载的简单配电网。电网的电状态必须保持在额定范围内(例如,母线电压在标称值附近的狭窄带宽内,线路电流低于其热极限),以避免设备损坏和服务中断。运营商使用电网侧设备(如负载分接开关、电容器组、储能)来维持这些约束,其动作延迟范围从电力电子设备的亚秒级到机械调整的分钟级。 AI 数据中心作为单个大负载连接,其电力消耗由其运行的工作负载塑造。对于推理,模型选择(大小和架构)、批大小、精度、硬件(GPU 类型)、并行性和应用约束共同决定了延迟、吞吐量和功耗 [mlenergy-benchmark-neurips25](https://arxiv.org/html/2605.05519#bib.bib7); [mlenergy-benchmark-v3-arxiv26](https://arxiv.org/html/2605.05519#bib.bib8)。 ### 2.2 协调问题 从数据中心运营商的角度来看,偶尔允许性能降级要好于在等待电网互联期间完全无服务。因此,为了解除受基础设施限制的容量扩张,AI 数据中心运营商越来越多地承诺向电网提供数据中心电力灵活性 [google-flexibility-blog25](https://arxiv.org/html/2605.05519#bib.bib45); [google-flexibility-blog26](https://arxiv.org/html/2605.05519#bib.bib46);当电网压力大时,数据中心可以接收信号以减少其电力消耗;当电网供电过剩时,数据中心实际上可以增加电力消耗以帮助稳定电网。这是可行的,因为 AI 工作负载允许广泛的控制旋钮(例如,批大小;§2.1),可以快速调整以塑造数据中心电力而不停止服务。 良好地实现这种灵活性需要运行时控制,该控制推理数据中心侧和电网侧的状态,并向任一侧分发动作。我们将此问题称为 **AI 数据中心-电网运行时协调**:AI 数据中心和电网通过其共享的电力轨迹形成闭环系统,两侧的控制器以毫秒到分钟的时间尺度行动。每侧都有自己的目标、目标和运行时旋钮,因此改善 AI 吞吐量的单侧策略可能会缩小电网的电灵活性,而稳定电网的行动可能会消耗 AI 服务容量或违反 AI 服务目标。严格研究这一点需要一个结合现实 AI 工作负载行为和电网仿真的仿真框架,背后有一个通用的控制接口,而现有工具均未提供这一点。 **图 1: OpenG2G 架构概览。** OpenG2G 围绕仿真循环组合了三个可插拔组件,将它们焊接在一起并输出数据中心和电网指标。 ## 3 OpenG2G OpenG2G 围绕三个可插拔组件(数据中心、电网和控制器)以及驱动它们的通用多速率仿真循环组织(图 1)。为了组装一个场景,用户用其输入实例化每个组件,定义它们的连接,并将它们交给仿真循环。每次仿真滴答,每个组件前进并产生指标。 #### 数据中心。 数据中心组件模拟一个或多个 AI 集群,具有可配置的输入(模型、GPU、延迟目标、副本计划、训练作业)以及每步输出的电力、吞吐量和延迟(图 1,Datacenter 框)。控制器通过发出命令(如改变批大小和缩放的副本数量)对其采取行动。默认后端重放来自 ML.ENERGY Benchmark 数据集 [mlenergy-benchmark-neurips25](https://arxiv.org/html/2605.05519#bib.bib7); [mlenergy-benchmark-v3-arxiv26](https://arxiv.org/html/2605.05519#bib.bib8) 的电力、吞吐量和延迟测量值,表现得像真实数据中心,而不需要昂贵的的大规模部署。计划训练作业也可以叠加在推理工作负载上,其电力轨迹提炼自真实大模型训练测量值 [kareus-arxiv26](https://arxiv.org/html/2605.05519#bib.bib49)。 #### 电网。 电网组件模拟电力电网,接受可配置的输入,如拓扑、分接位置轨迹、负载、发电机和储能,并报告每步的母线电压和违规指标(图 1,Grid 框)。控制器通过发出命令(如改变调节器分接位置)与电网互动。默认实现建模了一个配电馈线,其主要控制目标是电压调节:需求减少有助于缓解欠电压,而需求增加有助于缓解过电压。该模块包装了广泛使用的 OpenDSS [opendss](https://arxiv.org/html/2605.05519#bib.bib12); [opendssdirect](https://arxiv.org/html/2605.05519#bib.bib24) 仿真器,并包括对标准 IEEE 测试馈线 [ieee-test-feeders](https://arxiv.org/html/2605.05519#bib.bib21) 的支持。用户可以添加固定或时变负载和发电机,附加储能,或提供自定义电网定义。 #### 控制器。 控制器是协调数据中心和电网的闭环策略,通过读取当前数据中心和电网状态并发送一系列数据中心和/或电网命令来实现(图 1,Controller 框)。任何控制器都是抽象 `Controller` 基类的子类,该类定义了仿真循环与其交互的最小接口。这种模块化结构允许用户在相同的数据中心和电网场景下实验不同的控制器,并在不同的数据中心和电网场景下测试相同的控制器。当多个数据中心共享一个电网时,控制可以是集中式的(每电网一个控制器)或分散式的(每数据中心一个控制器)。 #### 仿真流程。 在每次滴答时,仿真循环以其各自的本地分数率推进数据中心、电网和控制器(例如,每 0.1 秒一次滴答),调解它们之间的观察-命令交换,并记录每个组件发出的指标和事件。多速率调度很重要,因为每个组件可能有不同的自然节奏:电网仿真器可能过于昂贵而无法频繁运行,而人们可能希望以底层数据集允许的最细粒度捕获数据中心的完整电力时间线。日志记录、种子设置和事件簿记在循环中集中管理,因此每
相似文章
面向数据驱动智能电网最优潮流的可扩展异构图基础模型
本文提出了一种可扩展的异构图神经网络工作流,用于数据驱动的最优潮流替代建模,利用超级计算机进行分布式训练,并通过微调预训练模型展示了性能改进。
灵活调峰:电力柔性 AI 工厂如何稳定全球能源电网
Emerald AI 展示了电力柔性AI工厂如何自主调节电力消耗以稳定电网需求,该方案依托伦敦数据中心的 NVIDIA GPUs 及相关基础设施,在不干扰关键工作负载的前提下吸收峰值功率激增。
@aigclink: 微软最新开源了一个面向电力系统的AI基础模型:GridSFM,用来加速电力行业里交流最优潮流计算的研究 GridSFM用图神经网络近似AC-OPF求解,把电网当作一张图,直接预测近似最优运行点,再作为传统精确求解器的热启动初值,加速收敛 …
微软开源了面向电力系统的AI基础模型GridSFM,利用图神经网络近似AC-OPF求解,跨拓扑通用,能作为精确求解器的热启动实现1.45倍加速,并具备可行性分类能力。
电网能否跟上所有新建AI数据中心的步伐?
本文探讨了在电力需求日益增长和新发电设施建设速度的背景下,电网能否支撑AI数据中心快速增长的担忧。
构建智能时代的计算基础设施
OpenAI宣布通过Stargate项目突破10GW计算基础设施里程碑,强调通过与生态系统合作伙伴的协作和社区参与实现快速扩张,以满足加速增长的AI需求。