因果强化学习导论

arXiv cs.AI 2026/06/24 04:00 论文

摘要

本文介绍了因果强化学习（CRL），在结构因果模型框架下统一了因果推断和强化学习，并探讨了诸如广义策略学习和反事实学习等新颖的学习设置。

arXiv:2606.24160v1 公告类型：新提交摘要：因果推断提供了一套原则和工具，允许人们结合环境数据和知识，回答反事实性质的问题——即如果现实情况不同，会发生什么——即使在当前没有这个未实现现实的数据时也能推理。强化学习则提供了在智能体部署于环境中并通过探索性的试错方法进行学习时，优化特定度量（如奖励、遗憾）的策略学习方法。这两个学科独立发展，几乎没有任何交互。我们注意到，它们作用于同一基本构建模块的不同方面——反事实关系，这使得它们紧密相连。基于这些观察，当这种联系被显式承认并数学化时，就会出现新的学习机会。为了实现这一潜力，我们注意到，RL智能体所处的任何环境都可以分解为一组具有不同因果不变性的自主机制，这些机制被简洁地建模为结构因果模型；任何标准的RL设置都隐含地编码了这样一个模型。这种形式化使我们能够将文献中看似无关的不同学习模式——包括在线学习、离线策略学习和因果演算学习——置于统一框架下处理。然而，这些模式并非穷尽：我们引入了几个自然且普遍存在的学习设置类别，这些类别带来了新的分析维度。具体而言，我们从因果视角引入并讨论了广义策略学习（其中涉及干预）、模仿学习和反事实学习。这些任务带来了更广阔的反事实学习视角，并暗示了将因果推断与强化学习并列研究的巨大潜力，我们称之为因果强化学习（CRL）。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:45

# 因果强化学习导论
来源：https://arxiv.org/abs/2606.24160
查看 PDF (https://arxiv.org/pdf/2606.24160)

> 摘要：因果推断提供了一套原理和工具，允许我们将关于环境的数据与知识相结合，以推理反事实类问题——即如果现实情况不同将会发生什么，即使目前没有关于这种未实现现实的可用数据。强化学习则提供方法，使得智能体在环境中通过探索性的试错方式运行时，能够学习到优化特定度量（例如，奖励、遗憾）的策略。这两个学科独立发展，彼此之间几乎没有交互。我们注意到，它们作用于同一基本构件——反事实关系——的不同方面，这使它们之间有着脐带般的联系。基于这些观察，当这种连接被明确承认并数学化时，便出现了新的学习机遇。为实现这一潜力，我们注意到，RL 智能体所运行的任何环境都可以分解为一组具有不同因果不变性的自主机制，并简洁地建模为结构因果模型；任何标准 RL 设置都隐式地编码了这样一个模型。这种形式化使我们能够将不同的学习模式（包括在线学习、离策略学习和因果演算学习）置于统一框架下处理，而这些模式在文献中看似互不相关。然而，这些模式并非穷举：我们引入并讨论了几种自然且普遍的学习设置类别，这些类别带来了新的分析维度。具体而言，我们通过因果视角引入并讨论了广义策略学习（需干预的模仿学习）和反事实学习。这些任务导致了更广泛的反事实学习观，并表明将因果推断与强化学习并列研究具有巨大潜力，我们将其称为因果强化学习 (CRL)。

## 提交历史

来自：Junzhe Zhang \[查看邮箱 (https://arxiv.org/show-email/421c20a2/2606.24160)\] **\[v1\]** 2026年6月23日，星期二，05:28:33 UTC (3,015 KB)

因果强化学习导论

相似文章

关系结构因果模型

代理时代的因果发现

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

ICRL：通过强化学习内化自我批判

CurveRL：面向LLM推理的基于分布感知的上下文权重调整原则性方法

提交意见反馈