通过迭代元反射实现自主科学发现

Hugging Face Daily Papers 论文

摘要

DiscoPER 是一个自主框架,利用大型语言模型和动态代码生成进行开放式科学研究,通过二阶元反射综合发现结果,并采用统计检验确保严谨性。在多模态生态基准测试中,它在恢复已知模式方面优于基线方法。

自主科学发现系统有望通过自动化假设生成与验证过程来加速研究。然而,当前系统要么在受限搜索空间内运行,要么需要预定义的研究问题,限制了其进行真正开放式探究的能力。此外,尽管它们能迭代生成假设,但大多缺乏明确综合自身累积发现以揭示复杂互联现象的能力。我们提出 DiscoPER,一个由大型语言模型驱动的自主框架,通过动态生成并执行代码来探索数据集,无需预设研究目标即可开展开放式研究。为确保科学严谨性,每一个提出的发现都必须通过统计检验。为克服孤立搜索的局限,我们的框架引入了一种二阶推理机制,定期分析其自身累积的发现。通过将先前发现视为经验数据,DiscoPER 能够识别结构模式、混淆因素和认知空白,主动将假设探索引向搜索空间中未涉及的区域。通过整合工具使用,搜索空间进一步扩展,使系统能够跨越结构化元数据,无缝处理并从图像等多模态来源中提取有用信息,从而探索更广泛的假设。我们在 iNatDisco 上进行评估,这是一个新的多模态生态知识基准,包含从同行评审文献中获得的模式级别真实标注。DiscoPER 恢复了 9 个已知模式中的 8 个,假设支持率为 72.7%,优于经典因果发现方法和基于 LLM 的基线。消融实验表明,DiscoPER 能随数据量增加而扩展,并证实了二阶元反射的益处。
查看原文
查看缓存全文

缓存时间: 2026/07/02 03:46

论文页面 - 基于迭代元反思的自主科学发现

来源:https://huggingface.co/papers/2607.01131

摘要

一种自主科学发现框架利用大型语言模型和动态代码生成,在保持统计严谨性的同时,通过元反思和多模态数据处理进行开放式研究。

自主科学发现(https://huggingface.co/papers?q=Autonomous%20scientific%20discovery)系统有望通过自动化假设生成(https://huggingface.co/papers?q=hypothesis%20generation)与验证过程来加速科研。然而,现有系统多在受限搜索空间内运作,或需预设研究问题,限制了其真正开放式探究的能力。此外,尽管它们能迭代生成假设,但普遍缺乏明确综合自身累积发现以揭示复杂互联现象的能力。我们提出 DiscoPER,这是一种由大型语言模型驱动的自主框架(https://huggingface.co/papers?q=large%20language%20model-powered%20framework),能够通过动态生成和执行代码,在无需预先指定研究目标的情况下,对数据集进行开放式探索。为确保严格的科学有效性,每个提出的发现都必须通过统计检验(https://huggingface.co/papers?q=statistical%20testing)。为克服孤立搜索的局限性,该框架引入了一种二阶推理(https://huggingface.co/papers?q=second-order%20reasoning)机制,定期分析自身积累的发现。通过将先前的发现视为经验数据,DiscoPER 能识别结构模式、混淆因素和认知缺口,主动将假设探索引导至搜索空间中未知的区域。通过整合工具使用,系统进一步扩展了搜索空间——能够无缝处理并提取来自图像等多模态来源(https://huggingface.co/papers?q=multimodal%20sources)的有用信息,从而探索超越结构化元数据的假设。在 iNatDisco(https://huggingface.co/papers?q=iNatDisco)——一个具有从同行评审文献中获取的模式级真实标注(https://huggingface.co/papers?q=pattern-level%20ground%20truth)的新型多模态生态知识基准——上进行评估,DiscoPER 以 72.7% 的假设支持率恢复了 9 个已知模式中的 8 个,超越了经典的因果发现(https://huggingface.co/papers?q=causal%20discovery)和基于 LLM 的基线方法(https://huggingface.co/papers?q=LLM-guided%20baselines)。消融实验表明,DiscoPER 能随数据量增加而扩展,并证实了二阶元反思(https://huggingface.co/papers?q=meta-reflection)的益处。

查看 arXiv 页面(https://arxiv.org/abs/2607.01131)查看 PDF(https://arxiv.org/pdf/2607.01131)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2607.01131)

在您的代理中获取此论文:

hf papers read 2607\.01131

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2607.01131 以在此页面建立链接。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2607.01131 以在此页面建立链接。

引用此论文的 Spaces0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2607.01131 以在此页面建立链接。

包含此论文的收藏集0

暂无包含此论文的收藏集

请将此论文添加至收藏集(https://huggingface.co/new-collection)以在此页面建立链接。

相似文章

Disco-RAG: 话语感知检索增强生成

arXiv cs.CL

Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。

深度研究的交互式范式

arXiv cs.CL

SteER 是一个用于可引导深度研究的框架,通过自适应暂停决策和实时用户画像建模,在过程中引入可解释的控制,在对齐方面比基线高出 22.80%,并在超过 85% 的成对对齐判断中受到人类读者的青睐。