PROMETHEUS：自动化深度因果研究，整合文本、数据与模型

arXiv cs.AI 2026/05/14 04:00 论文

摘要

本文介绍了PROMETHEUS框架，该框架利用大型语言模型从文本中提取局部因果主张，并将其组织成可导航的因果图谱，从而在多个领域实现深度因果研究。

arXiv:2605.12835v1 公告类型：新论文摘要：大型语言模型能够从文本中提取局部因果主张，但当这些主张被组织成持久且可导航的世界模型时，其价值远超作为扁平摘要呈现。我们提出了PROMETHEUS框架，该框架将检索到的文献、文件、评论、报告、智能体轨迹、源数据、代码、模拟结果和科学模型转化为因果图谱：即在一个研究基底的显式覆盖上，由局部因果预测状态模型构成的层状族。每个局部区域包含因果事件片段、结构化的主张表格、预测检验、支持统计数据和来源信息；限制映射用于比较重叠区域；粘合诊断技术揭示一致性、漂移、矛盾及欠确定性。由此形成的“拓扑世界模型”并非单一的通用图，而是一种研究工具，用于导航语料库的内容、出现位置、支持强度，以及局部主张无法整合为连贯全局视图的情况。三个文献图谱案例研究——海洋温度对海洋种群的影响、GLP-1减肥证据、以及白藜芦醇/红酒的健康益处主张——展示了基于文本的深度因果研究，具有明确的局部性、证据、持久状态和粘合张力。四个基于反实况的案例研究——《自然·气候变化》中关于微塑料强迫的论文、一篇基于VIC导出的图形数据和模型代码的印度河流域水文学论文、经典的Sachs蛋白信号研究（含单细胞扰动数据）、以及《自然》中关于唱歌小鼠的研究（含MAPseq投影矩阵）——展示了更强的模式：当论文附带源数据、模拟输出或代码时，PROMETHEUS可以针对该科学基底评估反实况，然后围绕该评估重建层状世界模型。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:14

# 自动化深度因果研究：整合文本、数据与科学模型

草稿修订中。来源：https://arxiv.org/html/2605.12835

## Prometheus：自动化深度因果研究：整合文本、数据与科学模型††感谢：草稿修订中。Sridhar Mahadevan Adobe Research 与马萨诸塞大学阿默斯特分校 [email protected], [email protected]

###### 摘要

大型语言模型能够从文本中提取局部因果声明，但这些声明若被组织为持久、可导航的世界模型，而非扁平摘要，则会更具实用性。我们介绍 **Prometheus**，一个将检索到的文献、档案、评论、报告、智能体轨迹、源数据、代码、模拟及科学模型转化为*因果图谱*的框架：即在一个研究基底的显式覆盖上，形成类似层状结构的局部因果预测状态模型家族。每个局部区域包含因果片段、结构化声明表格、预测测试、支持统计数据和来源信息；限制映射用于比较重叠区域；粘合诊断则揭示一致性、漂移、矛盾与欠确定性。由此产生的拓扑斯世界模型并非单一的通用图，而是一种研究工具，用于导航语料库表达了什么、在哪里表达、支持程度如何，以及局部声明在何处无法整合为连贯的全局视图。我们描述了 Prometheus 流程，形式化了因果片段与局部预测状态层，介绍了声明图谱接口，并提出了一个以覆盖度、漂移可见性、来源信息、支持聚合、专家导航时间和重运行一致性为核心的评估方案。三个文献图谱案例研究——海洋温度对海洋种群的影响、GLP-1 减肥证据以及白藜芦醇/红酒健康益处声明——展示了从文本进行深度因果研究时明确的局部性、证据、持久状态和粘合张力。四个基于真实数据的反事实案例研究——一篇《自然·气候变化》的微塑料强迫论文、一篇具有 VIC 导出的图数据和模型代码的印度河-恒河水文学论文、经典的 Sachs 蛋白信号传导研究（含单细胞扰动数据），以及一篇具有 MAPseq 投影矩阵的《自然》唱歌小鼠研究——展示了一种更强的模式：当论文附带源数据、模拟输出或代码时，Prometheus 可以针对该科学基底评估反事实，然后围绕测量到的干预结果重建层世界模型。

*关键词*：因果发现·大型语言模型·预测状态表示·层·拓扑斯世界模型

## 1 引言

大型语言模型如今已能出色地总结科学论文、金融文件、产品评论和运营记录。它们能检索相关段落、重述结论并提取许多局部因果声明。然而，对于深度研究而言，这还不够。研究人员通常需要知道哪些因果声明在整个语料库中重复出现、哪些声明具有体制特异性、哪些表面分歧源于不同人群或测量方式，以及文献在何处有足够支持以证明后续查询、实验或决策的合理性。普通的摘要过于扁平，无法胜任此任务。

Prometheus 的出发点是：从语言中获得的因果知识应被表示为语料库上一族局部预测模型。一篇论文、一个章节、一个时间窗口、一个人群、一个产品使用情境或一个监管工作流，均可产生一个局部模型。这些局部模型相互重叠。当它们共享的预测和因果声明一致时，它们可能粘合为更大的连贯区域。当不一致时，这种分歧并非需要平均掉的噪声，而是一个研究信号——可能指示漂移、混杂、不兼容的测量、来源质量变化或真正的体制边界。我们将由此产生的对象称为*拓扑斯世界模型*。操作上，它是一个类似层的因果图谱：由情境索引的局部预测状态表示，通过限制映射连接，并附有支持、粘合张力、漂移和来源信息。该图谱设计供人类或智能体研究人员使用，以便提出这样的问题：该文献的主要因果脉络是什么？哪些区域支持它？哪些情境打破它？哪些段落和表格证明了一个局部声明？两次检索运行或两个时间段之间有何变化？

本文将 Prometheus定位为一种研究工具，而非声称某个单一基准分数能体现系统价值。其预期贡献在于：因果提取 + 拓扑组织 + 可导航证据。最终对象不仅是知识图谱，不仅是检索增强的摘要，也不仅是结构因果模型。它是文本上局部因果预测状态层的一个有限、可检查的近似。

#### 贡献。本文做出六项贡献。

1. 1. 我们介绍 Prometheus，一个用于从文本进行深度因果研究的语言到拓扑斯世界模型流程。
2. 2. 我们将早期 Democritus 系列的因果声明提取和 cSQL 风格因果表扩展为具有覆盖、限制、粘合诊断、持久状态和因果图谱的局部因果预测状态模型。
3. 3. 我们在适用于实现的有限层理论背景下形式化了因果事件、片段、情境、覆盖、限制、局部预测状态表和粘合张力。
4. 4. 我们描述声明图谱，这是一个按因果脉络、局部区域、支持、漂移、体制张力和来源下钻来组织语料库的接口对象。
5. 5. 我们提出一个适合因果研究工具的评估方案：不仅包括提取准确性，还包括覆盖度、漂移可见性、支持聚合、来源质量、专家导航时间和跨重运行的一致性。
6. 6. 我们在四个科学领域展示了基于真实数据的反事实层：一篇《自然·气候变化》微塑料论文，其源表支持光学强迫干预；一篇印度河-恒河水文学论文，其 VIC 导出的图数据和模型代码支持干旱恢复干预；Sachs 蛋白信号传导基准，其单细胞环境面板支持实验体制替换；一篇《自然》唱歌小鼠研究，其 MAPseq 投影矩阵支持物种级投影衰减干预。在每种情况下，修改后的因果观测被用于重建层世界模型。

## 2 相关工作

检索增强生成通过根据检索到的段落调节答案来改进事实基础 (Lewis 等人，2020 (https://arxiv.org/html/2605.12835#bib.bib11))。因果提取流程走得更远，识别文本中的因果陈述 (Girju，2003 (https://arxiv.org/html/2605.12835#bib.bib2); Hendrickx 等人，2010 (https://arxiv.org/html/2605.12835#bib.bib5))。然而，这两种方法往往将语料库压缩为一个答案。这正是深度研究人员无法承受的损失。

考虑一个关于海洋变暖和鱼类种群的语料库。文献的一个区域可能强调热应激和迁移。另一个区域可能关注食物网破坏。第三个区域可能展示特定物种的适应或局部韧性。一个扁平化的答案如“变暖减少鱼类种群”在方向上是有用的，但在结构上是贫乏的。它隐藏了决定该声明是否应被迁移到新案例的人群、地点、温度范围、时间尺度、测量方案和生态中介因素。

同样的问题出现在产品评论中。一双鞋可能适合短跑但长距离里程会不舒服；在轻雨中防水但反复清洗后表现差；总体评分高但在窄尺码体制下退货率高。在证监会或运营工作流中，一份文件可能描述投资、优化、供应链风险、监管暴露和预期利润率影响，但每个关系可能仅在特定的市场和时间窗口假设下有效。因此，Prometheus 将每个文本派生的声明视为局部性的。它询问声明存在于何处、哪些相邻情境与之重叠、它预测哪些测试，以及其限制是否与附近的局部模型一致。

#### 从文本中提取因果关系。有一长串工作致力于识别自然语言中的因果关系，从线索短语和基于模式的系统到神经分类器；参见因果关系提取和事件因果识别综述 (Yang 等人，2022 (https://arxiv.org/html/2605.12835#bib.bib25); He 等人，2023 (https://arxiv.org/html/2605.12835#bib.bib4))。经典系统通常预测句子中的一对片段或事件是否处于因果关系中，而语料库规模的工作将这些局部预测连接到事件预测或解释性检索 (Radinsky 等人，2012 (https://arxiv.org/html/2605.12835#bib.bib20))。Prometheus 将这些提取的关系用作证据单元，但论文的研究对象在于后续：如何将成千上万的局部声明在语料库区域间进行定位、比较、迁移或阻断。

#### 来自语料库的因果知识库和图。因果知识库项目从大型语料库中挖掘因果-效果元组，并将它们聚合为图结构化资源 (Hassanzadeh 等人，2020 (https://arxiv.org/html/2605.12835#bib.bib3))。这种图构建视角与第一个 Democritus 贡献接近，其中 LLM 生成的因果陈述被编译为局部因果模型和更大的因果图谱 (Mahadevan，2025a (https://arxiv.org/html/2605.12835#bib.bib15))。Prometheus 延伸了这一思路，将局部图和 cSQL 行视为局部因果 PSR 的观测。因此，全局对象不是一个合并的图，而是一个类似层的图表家族，其重叠区域揭示一致性、漂移、矛盾和欠确定性。

#### 用于因果发现和推理的 LLM。越来越多的文献探讨 LLM 是否能够从变量描述和文本环境中提出因果方向、图结构、干预或反事实解释 (Kıcıman 等人，2024 (https://arxiv.org/html/2605.12835#bib.bib9); Le 等人，2024 (https://arxiv.org/html/2605.12835#bib.bib10))。Prometheus 有意更为保守。它不将 LLM 视为真实因果发现的预言机。相反，LLM 帮助呈现因果话语：可被标准化、审计和比较的声明、机制、修饰语、体制和源段落。因此，图谱中的局部干预探针是模型内部的研究测试，除非与外部数据和识别假设配对。

#### 用于自动化科学发现的智能体系统。最近的系统也旨在自动化科学工作流的更大部分。例如，AI Scientist-v2 使用智能体树搜索提出假设，设计和执行机器学习实验，分析和可视化结果，并撰写科学手稿 (Yamada 等人，2025 (https://arxiv.org/html/2605.12835#bib.bib24))。这条工作线在目标上与 Prometheus 接近：两者都探讨 AI 系统如何参与科学发现，而不仅仅是回答关于现有论文的问题。侧重点不同。AI Scientist-v2 组织自主实验和手稿生成，主要在机器学习研究设置中。Prometheus 则从异质研究工件——文本、数据、图表、源代码和科学模型——构建一个明确的因果拓扑斯世界模型，使得局部声明、粘合失败、证据限制和基于真实数据的反事实修订保持可检查性。在这个意义上，Prometheus 可被视为科学智能体的一种互补世界模型层：它记录研究基底支持什么、哪里不粘合、哪些反事实实际上可被评估。

#### 因果感知 NLP。更广泛地说，因果思想已被用于研究文本效应、反事实增强、表示稳健性和 NLP 系统的解释 (Jin 等人，2021 (https://arxiv.org/html/2605.12835#bib.bib8))。Prometheus 指向相反方向：它使用 NLP 和 LLM 提取来构建用于人类研究的显式因果工件。声明图谱旨在被检查、纠正、扩展和重运行，因此来源信息和粘合失败是输出的一部分，而非事后调试工具。

## 3 从 Democritus 到 Prometheus

Democritus 是前驱流程：一个用于将文档编译为局部因果模型、因果数据库和交互式诊断工件的语言到因果模型系统 (Mahadevan，2025a (https://arxiv.org/html/2605.12835#bib.bib15))。已发布的 Democritus 客户端的公开实现可作为 Democritus_OpenAI 获得 (Mahadevan，2025d (https://arxiv.org/html/2605.12835#bib.bib18))。该工作线更广泛的范畴机器学习背景在 Mahadevan (2025c (https://arxiv.org/html/2605.12835#bib.bib17)) 中有所阐述。它提取局部因果声明，将其组织为因果三元组或局部因果模型，并将结构化输出存储在类 cSQL 的因果表中。这已经很有用：它将非结构化文本转化为可查询的因果对象。

Prometheus 改变了核心对象。它将局部 DAG 或因果表视为最终表示，而是将其视为局部预测状态模型的证据。一个局部模型不仅记录 X 引起或影响 Y，还记录哪些历史记录和测试存在、模型在这些测试下的预测、每个单元格的支持程度以及证据来源。全局对象不是单一合并的 DAG，而是一个类似层的局部模型家族，配备有限制和粘合诊断。

表 1：Prometheus 继承了 Democritus 的提取纪律，但将表示从以图为中心的合成转向预测状态层。

这种转变之所以重要，是因为深度研究很少是关于找到一个图。它关乎理解哪些局部图、声明和预测是可迁移的。拓扑组织使系统能够表达：这些区域一致，这些重叠但拉开距离，这个声明不应在没有额外证据的情况下移动。

## 4 Democritus 流程的哪些部分被重用？

原始的 Democritus arXiv 论文描述了一个用于从语言构建大型因果模型的六模块流程 (Mahadevan，2025a (https://arxiv.org/html/2605.12835#bib.bib15))。Prometheus 应被视为该流程的延续，而非简单的重新命名。前四个模块仍然提供提取纪律：它们将种子研究领域或语料库转化为主题、因果问题、因果声明和类型化关系三元组。新的贡献始于这些三元组和 cSQL 行不再被视为最终图工件。相反，它们成为 Prometheus 构建由显式覆盖索引的局部因果预测状态模型的观测。

表 2：Prometheus 如何重用和扩展六模块 Democritus 流程。模块 1–4 提供因果提取和规范化；拓扑斯世界模型的新构建始于将提取的声明组装成覆盖上的局部预测状态。

这种映射澄清了提取与世界建模之间的界限。在 Democritus 中，模块 4 产生关系图，模块 5 几何地组织该图，模块 6 将结果存储为拓扑斯切片。在 Prometheus 中，图是一个中间观测层。像 (食物限制, 降低, 热耐受) 这样的三元组不再仅仅是全局图中的一条边。它

PROMETHEUS：自动化深度因果研究，整合文本、数据与模型

相似文章

代理时代的因果发现

CausaLab: 面向AI科学家的可扩展交互式因果发现环境

PACER: 从大规模干预数据中进行无环因果发现

文本到图像模型是归纳主义火鸡吗？一个用于因果推理的反事实基准

社交媒体中因果关系提取的大型语言模型：灾害情报的验证框架

提交意见反馈