因果强化学习导论

arXiv cs.AI 论文

摘要

本文介绍了因果强化学习(CRL),在结构因果模型框架下统一了因果推断和强化学习,并探讨了诸如广义策略学习和反事实学习等新颖的学习设置。

arXiv:2606.24160v1 公告类型:新提交 摘要:因果推断提供了一套原则和工具,允许人们结合环境数据和知识,回答反事实性质的问题——即如果现实情况不同,会发生什么——即使在当前没有这个未实现现实的数据时也能推理。强化学习则提供了在智能体部署于环境中并通过探索性的试错方法进行学习时,优化特定度量(如奖励、遗憾)的策略学习方法。这两个学科独立发展,几乎没有任何交互。我们注意到,它们作用于同一基本构建模块的不同方面——反事实关系,这使得它们紧密相连。基于这些观察,当这种联系被显式承认并数学化时,就会出现新的学习机会。为了实现这一潜力,我们注意到,RL智能体所处的任何环境都可以分解为一组具有不同因果不变性的自主机制,这些机制被简洁地建模为结构因果模型;任何标准的RL设置都隐含地编码了这样一个模型。这种形式化使我们能够将文献中看似无关的不同学习模式——包括在线学习、离线策略学习和因果演算学习——置于统一框架下处理。然而,这些模式并非穷尽:我们引入了几个自然且普遍存在的学习设置类别,这些类别带来了新的分析维度。具体而言,我们从因果视角引入并讨论了广义策略学习(其中涉及干预)、模仿学习和反事实学习。这些任务带来了更广阔的反事实学习视角,并暗示了将因果推断与强化学习并列研究的巨大潜力,我们称之为因果强化学习(CRL)。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:45

# 因果强化学习导论
来源:https://arxiv.org/abs/2606.24160
查看 PDF (https://arxiv.org/pdf/2606.24160)

> 摘要:因果推断提供了一套原理和工具,允许我们将关于环境的数据与知识相结合,以推理反事实类问题——即如果现实情况不同将会发生什么,即使目前没有关于这种未实现现实的可用数据。强化学习则提供方法,使得智能体在环境中通过探索性的试错方式运行时,能够学习到优化特定度量(例如,奖励、遗憾)的策略。这两个学科独立发展,彼此之间几乎没有交互。我们注意到,它们作用于同一基本构件——反事实关系——的不同方面,这使它们之间有着脐带般的联系。基于这些观察,当这种连接被明确承认并数学化时,便出现了新的学习机遇。为实现这一潜力,我们注意到,RL 智能体所运行的任何环境都可以分解为一组具有不同因果不变性的自主机制,并简洁地建模为结构因果模型;任何标准 RL 设置都隐式地编码了这样一个模型。这种形式化使我们能够将不同的学习模式(包括在线学习、离策略学习和因果演算学习)置于统一框架下处理,而这些模式在文献中看似互不相关。然而,这些模式并非穷举:我们引入并讨论了几种自然且普遍的学习设置类别,这些类别带来了新的分析维度。具体而言,我们通过因果视角引入并讨论了广义策略学习(需干预的模仿学习)和反事实学习。这些任务导致了更广泛的反事实学习观,并表明将因果推断与强化学习并列研究具有巨大潜力,我们将其称为因果强化学习 (CRL)。

## 提交历史

来自:Junzhe Zhang \[查看邮箱 (https://arxiv.org/show-email/421c20a2/2606.24160)\] **\[v1\]** 2026年6月23日,星期二,05:28:33 UTC (3,015 KB)

相似文章

关系结构因果模型

arXiv cs.AI

本文介绍了关系结构因果模型,将结构因果模型扩展到具有变化对象和关系的场景。它提供了识别的理论结果,并提出了关系神经因果模型,该模型在模拟交通场景中的表现优于非关系基线方法。

代理时代的因果发现

Hugging Face Daily Papers

本文认为,语言模型代理应通过提供上下文支持和解释来辅助因果发现工作流程,而非生成因果结论,并介绍了causal-learn+平台以演示这一原则。

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

Hugging Face Daily Papers

CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。

ICRL:通过强化学习内化自我批判

arXiv cs.AI

本文介绍了ICRL框架,该框架联合训练求解器和批判器,通过强化学习内化批判指导,使求解器无需外部批判即可自我改进。它使用分布校准和角色分组优势估计,在智能体和数学推理任务上比GRPO提高了6-7个点。