通过假设树优化实现通用自主研究

Hugging Face Daily Papers 2026/06/10 00:00 论文

摘要

Arbor是一个用于自主科学研究的AI框架，它使用协调器、执行器和一个持久的假设树，在多个领域迭代改进研究成果，在六个真实研究任务上取得了强劲的成果。

科学进步依赖于探索、实验和抽象的重复循环。研究人员测试候选方向，解释证据，并将得到的经验应用于后续尝试。我们研究AI智能体如何长期自主地运行这一循环。我们提出Arbor，一个用于自主研究的通用框架，它结合了长期存在的协调器、短期存在的执行器和假设树优化（HTR）——一个将假设、工件、证据和提炼的洞见跨时间联系起来的持久树。协调器管理树上的全局研究策略，而执行器在隔离的工作树中实施并测试单个假设。当结果返回时，Arbor更新树，传播可复用的经验，优化搜索前沿，并接纳已验证的改进。这种设计将自主研究从一系列局部尝试转变为一种累积过程，其中策略、执行和证据被跨时间传递。我们在自主优化（AO）下评估Arbor，这是一种运行设置，其中智能体通过迭代实验改进初始研究工件，无需逐步人工监督。在模型训练、工具工程和数据合成等六个真实研究任务中，Arbor在所有六个任务上取得了最佳保留结果，在相同任务接口和资源预算下，平均相对保留增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上，Arbor使用GPT-5.5达到了86.36%的Any Medal，这是我们比较中的最强结果。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:39

论文页面 - 迈向通才自主研究：基于假设树精炼框架

来源：https://huggingface.co/papers/2606.11926
发布于 6 月 10 日

#2 当日论文 (https://huggingface.co/papers/date/2026-06-11)
作者：
，
，
，
，
，
，
，
，
，
，
，
，
，

摘要

一个名为 Arbor 的人工智能框架，通过结合战略协调、隔离假设测试以及持久知识树，能够在多个领域迭代提升研究成果，从而实现自主科学研究。

科学进步依赖于探索、实验和抽象化的循环往复。研究者测试候选方向，解读证据，并将所得经验应用于后续尝试。我们研究 AI 智能体如何自主地运行这一循环，并跨越长时间跨度（https://huggingface.co/papers?q=long%20horizons）。我们引入了 Arbor，一个面向自主研究（https://huggingface.co/papers?q=autonomous%20research）的通用框架，它结合了长期存在的协调者（coordinator）（https://huggingface.co/papers?q=coordinator）、短期存在的执行器（executors）（https://huggingface.co/papers?q=executors）以及假设树精炼（Hypothesis Tree Refinement, HTR）（https://huggingface.co/papers?q=Hypothesis%20Tree%20Refinement）——一棵持久的树结构，用于跨时间链接假设、工件、证据和提炼出的洞见。协调者负责全局研究策略的树级管理，而执行器则在隔离的工作树（worktrees）（https://huggingface.co/papers?q=worktrees）中实施并测试单个假设。当结果返回时，Arbor 更新树结构，传播可复用的经验，精炼搜索前沿，并接纳已验证的改进。这一设计将自主研究从一系列局部尝试转变为一种累积过程，在此过程中，策略、执行和证据得以跨时间传递。我们在自主优化（Autonomous Optimization, AO）设定下评估 Arbor，该设定中，智能体通过迭代实验（iterative experimentation）（https://huggingface.co/papers?q=iterative%20experimentation）改进初始研究工件（research artifact）（https://huggingface.co/papers?q=research%20artifact），无需步骤级别的人类监督。在六个真实研究任务（涉及模型训练、工具工程和数据合成）中，Arbor 在所有六个任务上均取得了最佳的保留测试结果（held-out result）（https://huggingface.co/papers?q=held-out%20result），平均相对保留增益超过 Codex 和 Claude Code 在相同任务接口和资源预算下的 2.5 倍。在 MLE-Bench Lite（https://huggingface.co/papers?q=MLE-Bench%20Lite）上，Arbor 配合 GPT-5.5 达到了 86.36% 的任意奖牌率，这是我们对比中最强的结果。

查看 arXiv 页面 (https://arxiv.org/abs/2606.11926) | 查看 PDF (https://arxiv.org/pdf/2606.11926) | 项目页面 (https://ruc-nlpir.github.io/Arbor/) | GitHub63 (https://github.com/RUC-NLPIR/Arbor) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11926)

在你的智能体中获取这篇论文：

hf papers read 2606.11926

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.11926，以便从本页面链接。

引用该论文的数据集 0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.11926，以便从本页面链接。

引用该论文的 Spaces 0

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.11926，以便从本页面链接。

包含该论文的收藏集 0

无收藏集包含此论文

将该论文添加到一个收藏集（https://huggingface.co/new-collection）中，以便从本页面链接。

通过假设树优化实现通用自主研究

论文页面 - 迈向通才自主研究：基于假设树精炼框架

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

包含该论文的收藏集 0

相似文章

@_akhaliq: 通过假设树精炼迈向通用自主研究

@HuggingPapers: Microsoft Research 推出 Arbor，一个使用持久假设树精炼的通用自主研究代理…

Arbor：树搜索作为自主代理的认知层

@_akhaliq: 论文:

我在 LangGraph 上重新实现了 Arbor（一个能生长假设树的研究代理）—— 一个保留实验记录而非遗忘失败经验的代理

提交意见反馈