用于带经济器逻辑与CO2约束通风的空调机组的基于PPO直接控制的统一Python框架

arXiv cs.LG 2026/05/26 04:00 论文

deep-reinforcement-learning hvac building-energy ppo co2-constrained-ventilation economizer control-systems

摘要

提出了一种统一Python框架，采用基于PPO的深度强化学习来优化带经济器逻辑与CO2约束通风的暖通空调控制，展示了比传统PID控制器更优的能效和温度稳定性。

arXiv:2605.24406v1 公告类型：新摘要：优化暖通空调（供暖、通风和空调）可提高建筑能效，同时为居住者提供舒适水平。由于建筑围护结构随时间经历随机负荷变化时的非线性特性，使用传统控制系统维持暖通空调功能通常很困难。本文提出了一种新方法，通过在自定义Python性能环境中实现的深度强化学习（DRL）算法和近端策略优化（PPO）算法来优化暖通空调系统。DRL系统使用二阶电阻电容热模型和集成的CO2动态质量平衡来复制与建筑相关的复杂物理过程。本研究的一个主要创新是“层次化流量逻辑”，它通过覆盖导致CO2超过1000 ppm的智能体已接受行为，确保维持室内空气质量（IAQ）。此外，还使用了基于焓的经济器，利用室外环境实现免费冷却。实验数据表明，与经遗传算法（GA）调优的PID控制器或传统开关控制相比，PPO智能体在温度稳定性和能效方面整体表现更优。端到端流水线为实现鲁棒且通用的解决方案提供了途径，有助于在真实硬件实现背景下部署智能建筑能源管理。

查看原文

查看缓存全文

缓存时间: 2026/05/26 09:06

# 基于PPO的AHU经济器逻辑与CO2约束通风统一Python控制框架
来源：https://arxiv.org/abs/2605.24406
查看PDF（https://arxiv.org/pdf/2605.24406）

> **摘要：**优化HVAC（供暖、通风与空调）系统可以提升建筑能效，同时保障室内舒适度。由于建筑围护结构随时间经历随机负荷变化，具有非线性特性，使用传统控制系统维持HVAC功能往往较为困难。本文提出了一种新方法，利用深度强化学习（DRL）算法和近端策略优化（PPO）算法，在自定义Python性能环境中对HVAC系统进行优化。该DRL系统采用二阶电阻-电容热模型和集成动态CO2质量平衡来模拟建筑相关的复杂物理过程。本研究的一个主要创新是“分层流量逻辑”，它通过覆盖智能体中导致CO2超过1000 ppm的已接受动作，来确保室内空气质量（IAQ）得到维持。此外，还利用基于焓的经济器实现来自室外环境的免费冷却。实验数据表明，与经过遗传算法调优的PID控制器或传统开关控制相比，PPO智能体在温度稳定性和整体能效方面表现更优。一个端到端的管道为在真实硬件上实施智能建筑能源管理提供了稳健且通用的解决方案。

## 提交历史

来自：Mahdi Alibeigi [查看电子邮件（https://arxiv.org/show-email/dc1aff01/2605.24406）] **\[v1\]** 2026年5月23日星期六 05:31:09 UTC（1,148 KB）

用于带经济器逻辑与CO2约束通风的空调机组的基于PPO直接控制的统一Python框架

相似文章

在线规划，离线学习：通过基于模型的控制实现高效学习和探索

GenPO++: 生成式策略优化与无雅可比似然比

近端策略优化

马氏距离引导的时变系统混合ES-DRL控制潜在OOD检测

DiffAero：一个用于高效四旋翼策略学习的GPU加速可微仿真框架

提交意见反馈