CausaLab: 面向AI科学家的可扩展交互式因果发现环境

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

CausaLab 是一个可扩展的环境，用于评估LLM智能体在交互式因果发现中的表现，同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距，突显了当前LLM智能体作为实验性因果推理者的局限性。

我们引入了CausaLab，一个可扩展的环境，用于评估LLM智能体的交互式因果发现。与之前的评估不同，CausaLab既评估智能体能否利用因果证据解决问题，又评估其答案是否基于忠实复现的因果机制。每个回合都将智能体置于一个合成实验室中：它接收先前的测量记录，对操纵者晶体进行干预，并预测由相同机制控制的保留反应堆晶体的共振频率。隐藏的数据生成过程是一个随机采样的结构因果模型（SCM），因此成功需要复现因果图和结构方程，而非依赖先验知识。实验表明，预测与机制复现之间存在持续差距：在纯观测的6节点设置中，GPT-5.2-high达到了92%的任务准确率，但全边F1仅为0.471。混合观测-干预策略提高了结构保真度，而纯干预即使对强智能体来说仍然困难。我们发现过早停止是一个主要弱点，并表明一致性验证可以缓解这一问题。因此，CausaLab将预测成功与因果理解区分开来，揭示了当前LLM智能体作为实验性因果推理者的局限性。

查看原文

查看缓存全文

缓存时间: 2026/05/29 07:00

论文页面 - CausaLab: 面向AI科学家的可扩展交互式因果发现环境

来源：https://huggingface.co/papers/2605.26029 发布于5月28日

提交自 https://huggingface.co/shizhuo2

Dylan (https://huggingface.co/shizhuo2)于5月29日

摘要

CausaLab通过合成实验场景，要求LLM代理同时进行准确的预测和忠实还原潜在的因果机制，从而评估其在因果发现方面的能力。我们介绍了CausaLab，一个用于评估LLM代理交互式因果发现（https://huggingface.co/papers?q=causal%20discovery）的可扩展环境。与以往的评估不同，CausaLab既评估代理是否能够利用因果证据解决问题，也评估其答案是否基于忠实还原的因果机制。每个回合将代理置于一个合成实验室中：它接收先前的测量记录，对一个操控器晶体进行干预，并预测由同一机制控制的保留反应器晶体的共振频率。隐藏的数据生成过程是一个随机采样的结构因果模型（SCM），因此成功需要同时恢复因果关系图和结构方程，而非依赖先验知识。实验显示预测与机制恢复之间存在持续差距：在纯观察的6节点设置中，GPT-5.2-high达到92%的任务准确率，但全部边F₁仅为0.471。混合观察-干预（https://huggingface.co/papers?q=intervention）策略提高了结构保真度，而纯干预（https://huggingface.co/papers?q=intervention）即使对强代理来说仍然困难。我们发现了过早停止这一主要弱点，并展示了一致性验证可以缓解该问题。因此，CausaLab将预测成功（https://huggingface.co/papers?q=predictive%20success）与因果理解（https://huggingface.co/papers?q=causal%20understanding）区分开来，并揭示了当前LLM代理作为实验性因果推理者的局限性。

查看arXiv页面 (https://arxiv.org/abs/2605.26029) 查看PDF (https://arxiv.org/pdf/2605.26029) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26029)

在您的代理中获取此论文：

hf papers read 2605\.26029

没有最新的CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型关联此论文

在模型README.md中引用arxiv.org/abs/2605.26029即可从此页面链接。

引用此论文的数据集 0

没有数据集关联此论文

在数据集README.md中引用arxiv.org/abs/2605.26029即可从此页面链接。

引用此论文的Spaces 0

没有Space关联此论文

在Space README.md中引用arxiv.org/abs/2605.26029即可从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到一个收藏即可从此页面链接。

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

论文页面 - CausaLab: 面向AI科学家的可扩展交互式因果发现环境

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的Spaces 0

包含此论文的收藏 0

相似文章

"Excuse me, may I say something..." CoLabScience，一个用于生物医学发现和大语言模型-专家协作的主动型AI助手

LLM-AutoSciLab：通过主动实验实现闭环科学发现

社交媒体中因果关系提取的大型语言模型：灾害情报的验证框架

基于反事实链和因果图的LLM可解释性

反事实评估揭示临床大语言模型和智能体的隐藏能力画像

提交意见反馈