用于带经济器逻辑与CO2约束通风的空调机组的基于PPO直接控制的统一Python框架
摘要
提出了一种统一Python框架,采用基于PPO的深度强化学习来优化带经济器逻辑与CO2约束通风的暖通空调控制,展示了比传统PID控制器更优的能效和温度稳定性。
查看缓存全文
缓存时间: 2026/05/26 09:06
# 基于PPO的AHU经济器逻辑与CO2约束通风统一Python控制框架 来源:https://arxiv.org/abs/2605.24406 查看PDF(https://arxiv.org/pdf/2605.24406) > **摘要:**优化HVAC(供暖、通风与空调)系统可以提升建筑能效,同时保障室内舒适度。由于建筑围护结构随时间经历随机负荷变化,具有非线性特性,使用传统控制系统维持HVAC功能往往较为困难。本文提出了一种新方法,利用深度强化学习(DRL)算法和近端策略优化(PPO)算法,在自定义Python性能环境中对HVAC系统进行优化。该DRL系统采用二阶电阻-电容热模型和集成动态CO2质量平衡来模拟建筑相关的复杂物理过程。本研究的一个主要创新是“分层流量逻辑”,它通过覆盖智能体中导致CO2超过1000 ppm的已接受动作,来确保室内空气质量(IAQ)得到维持。此外,还利用基于焓的经济器实现来自室外环境的免费冷却。实验数据表明,与经过遗传算法调优的PID控制器或传统开关控制相比,PPO智能体在温度稳定性和整体能效方面表现更优。一个端到端的管道为在真实硬件上实施智能建筑能源管理提供了稳健且通用的解决方案。 ## 提交历史 来自:Mahdi Alibeigi [查看电子邮件(https://arxiv.org/show-email/dc1aff01/2605.24406)] **\[v1\]** 2026年5月23日星期六 05:31:09 UTC(1,148 KB)
相似文章
在线规划,离线学习:通过基于模型的控制实现高效学习和探索
OpenAI 提出 POLO(在线规划,离线学习)框架,结合基于模型的控制、价值函数学习和协调探索,能够在人形机器人运动和灵巧手部操纵等复杂控制任务中实现高效学习,同时最小化真实世界经验需求。
GenPO++: 生成式策略优化与无雅可比似然比
GenPO++ 提出了一种可逆生成式策略优化框架,该框架在高阶可逆 ODE 求解器中使用历史状态作为辅助记忆,从而为强化学习中的流式策略实现精确反演和无雅可比似然比计算。它在大规模控制、微调和真实世界机器人任务上取得了有竞争力的性能,同时提高了稳定性和效率。
近端策略优化
# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度
马氏距离引导的时变系统混合ES-DRL控制潜在OOD检测
本文提出了一种基于马氏距离的潜在异常检测方法,利用VAE在时变系统中切换强化学习控制器和极值搜索控制器,并在粒子加速器控制中进行了验证。
DiffAero:一个用于高效四旋翼策略学习的GPU加速可微仿真框架
DiffAero 是一个面向四旋翼控制策略学习的GPU加速、完全可微仿真框架,支持环境级与智能体级并行、多种动力学模型以及可定制传感器。它能够在消费级硬件上数小时内完成鲁棒飞行策略的学习,并以开源形式发布。