CausaLab: 面向AI科学家的可扩展交互式因果发现环境
摘要
CausaLab 是一个可扩展的环境,用于评估LLM智能体在交互式因果发现中的表现,同时衡量预测准确性和对潜在因果机制的忠实复现。实验揭示了预测与机制复现之间的差距,突显了当前LLM智能体作为实验性因果推理者的局限性。
查看缓存全文
缓存时间: 2026/05/29 07:00
论文页面 - CausaLab: 面向AI科学家的可扩展交互式因果发现环境
来源:https://huggingface.co/papers/2605.26029 发布于5月28日
·
提交自 https://huggingface.co/shizhuo2
Dylan (https://huggingface.co/shizhuo2)于5月29日
摘要
CausaLab通过合成实验场景,要求LLM代理同时进行准确的预测和忠实还原潜在的因果机制,从而评估其在因果发现方面的能力。我们介绍了CausaLab,一个用于评估LLM代理交互式因果发现(https://huggingface.co/papers?q=causal%20discovery)的可扩展环境。与以往的评估不同,CausaLab既评估代理是否能够利用因果证据解决问题,也评估其答案是否基于忠实还原的因果机制。每个回合将代理置于一个合成实验室中:它接收先前的测量记录,对一个操控器晶体进行干预,并预测由同一机制控制的保留反应器晶体的共振频率。隐藏的数据生成过程是一个随机采样的结构因果模型(SCM),因此成功需要同时恢复因果关系图和结构方程,而非依赖先验知识。实验显示预测与机制恢复之间存在持续差距:在纯观察的6节点设置中,GPT-5.2-high达到92%的任务准确率,但全部边F₁仅为0.471。混合观察-干预(https://huggingface.co/papers?q=intervention)策略提高了结构保真度,而纯干预(https://huggingface.co/papers?q=intervention)即使对强代理来说仍然困难。我们发现了过早停止这一主要弱点,并展示了一致性验证可以缓解该问题。因此,CausaLab将预测成功(https://huggingface.co/papers?q=predictive%20success)与因果理解(https://huggingface.co/papers?q=causal%20understanding)区分开来,并揭示了当前LLM代理作为实验性因果推理者的局限性。
查看arXiv页面 (https://arxiv.org/abs/2605.26029) 查看PDF (https://arxiv.org/pdf/2605.26029) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.26029)
在您的代理中获取此论文:
hf papers read 2605\.26029
没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型关联此论文
在模型README.md中引用arxiv.org/abs/2605.26029即可从此页面链接。
引用此论文的数据集 0
没有数据集关联此论文
在数据集README.md中引用arxiv.org/abs/2605.26029即可从此页面链接。
引用此论文的Spaces 0
没有Space关联此论文
在Space README.md中引用arxiv.org/abs/2605.26029即可从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到一个收藏即可从此页面链接。
相似文章
"Excuse me, may I say something..." CoLabScience,一个用于生物医学发现和大语言模型-专家协作的主动型AI助手
CoLabScience介绍了一个用于生物医学研究的主动型大语言模型助手,它使用PULI(正无标签学习干预)这一新颖的强化学习框架,在科学讨论中自主进行干预,决定何时以及如何提供上下文感知的见解。该工作还包括BSDD,一个新的基准数据集,由基于PubMed文章的模拟研究对话和干预点组成。
LLM-AutoSciLab:通过主动实验实现闭环科学发现
LLM-AutoSciLab是一个闭环框架,利用LLM迭代生成假设、选择信息量大的实验并优化机制,在物理和生物学基准测试上相比之前的静态方法实现了更高的准确性和样本效率。
社交媒体中因果关系提取的大型语言模型:灾害情报的验证框架
本文提出了一个验证框架,用于评估大型语言模型(LLM)在灾害期间从社交媒体帖子中提取因果关系的有效性。通过将LLM生成的结果与基于专家知识的参考图谱进行比较,评估其在识别因果关系方面的可靠性及潜在风险。
基于反事实链和因果图的LLM可解释性
本文提出了一种四阶段方法,用于构建建模LLM推理过程的因果图,利用反事实增强实现稳定的因果发现,并提供透明、概念级的可解释性。
反事实评估揭示临床大语言模型和智能体的隐藏能力画像
本文介绍了因果敏感性得分(CSS),一种干预性指标,用于评估临床大语言模型和智能体在患者输入沿临床意义维度变化时,是否适当地更新其建议。该指标揭示了标准覆盖度指标未能捕捉的隐藏能力画像,暴露了安全盲点和结构性响应能力缺陷。