通过假设树优化实现通用自主研究

Hugging Face Daily Papers 论文

摘要

Arbor是一个用于自主科学研究的AI框架,它使用协调器、执行器和一个持久的假设树,在多个领域迭代改进研究成果,在六个真实研究任务上取得了强劲的成果。

科学进步依赖于探索、实验和抽象的重复循环。研究人员测试候选方向,解释证据,并将得到的经验应用于后续尝试。我们研究AI智能体如何长期自主地运行这一循环。我们提出Arbor,一个用于自主研究的通用框架,它结合了长期存在的协调器、短期存在的执行器和假设树优化(HTR)——一个将假设、工件、证据和提炼的洞见跨时间联系起来的持久树。协调器管理树上的全局研究策略,而执行器在隔离的工作树中实施并测试单个假设。当结果返回时,Arbor更新树,传播可复用的经验,优化搜索前沿,并接纳已验证的改进。这种设计将自主研究从一系列局部尝试转变为一种累积过程,其中策略、执行和证据被跨时间传递。我们在自主优化(AO)下评估Arbor,这是一种运行设置,其中智能体通过迭代实验改进初始研究工件,无需逐步人工监督。在模型训练、工具工程和数据合成等六个真实研究任务中,Arbor在所有六个任务上取得了最佳保留结果,在相同任务接口和资源预算下,平均相对保留增益超过Codex和Claude Code的2.5倍。在MLE-Bench Lite上,Arbor使用GPT-5.5达到了86.36%的Any Medal,这是我们比较中的最强结果。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:39

论文页面 - 迈向通才自主研究:基于假设树精炼框架

来源:https://huggingface.co/papers/2606.11926
发布于 6 月 10 日

#2 当日论文 (https://huggingface.co/papers/date/2026-06-11)
作者:












摘要

一个名为 Arbor 的人工智能框架,通过结合战略协调、隔离假设测试以及持久知识树,能够在多个领域迭代提升研究成果,从而实现自主科学研究。

科学进步依赖于探索、实验和抽象化的循环往复。研究者测试候选方向,解读证据,并将所得经验应用于后续尝试。我们研究 AI 智能体如何自主地运行这一循环,并跨越长时间跨度(https://huggingface.co/papers?q=long%20horizons)。我们引入了 Arbor,一个面向自主研究(https://huggingface.co/papers?q=autonomous%20research)的通用框架,它结合了长期存在的协调者(coordinator)(https://huggingface.co/papers?q=coordinator)、短期存在的执行器(executors)(https://huggingface.co/papers?q=executors)以及假设树精炼(Hypothesis Tree Refinement, HTR)(https://huggingface.co/papers?q=Hypothesis%20Tree%20Refinement)——一棵持久的树结构,用于跨时间链接假设、工件、证据和提炼出的洞见。协调者负责全局研究策略的树级管理,而执行器则在隔离的工作树(worktrees)(https://huggingface.co/papers?q=worktrees)中实施并测试单个假设。当结果返回时,Arbor 更新树结构,传播可复用的经验,精炼搜索前沿,并接纳已验证的改进。这一设计将自主研究从一系列局部尝试转变为一种累积过程,在此过程中,策略、执行和证据得以跨时间传递。我们在自主优化(Autonomous Optimization, AO)设定下评估 Arbor,该设定中,智能体通过迭代实验(iterative experimentation)(https://huggingface.co/papers?q=iterative%20experimentation)改进初始研究工件(research artifact)(https://huggingface.co/papers?q=research%20artifact),无需步骤级别的人类监督。在六个真实研究任务(涉及模型训练、工具工程和数据合成)中,Arbor 在所有六个任务上均取得了最佳的保留测试结果(held-out result)(https://huggingface.co/papers?q=held-out%20result),平均相对保留增益超过 Codex 和 Claude Code 在相同任务接口和资源预算下的 2.5 倍。在 MLE-Bench Lite(https://huggingface.co/papers?q=MLE-Bench%20Lite)上,Arbor 配合 GPT-5.5 达到了 86.36% 的任意奖牌率,这是我们对比中最强的结果。

查看 arXiv 页面 (https://arxiv.org/abs/2606.11926) | 查看 PDF (https://arxiv.org/pdf/2606.11926) | 项目页面 (https://ruc-nlpir.github.io/Arbor/) | GitHub63 (https://github.com/RUC-NLPIR/Arbor) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11926)

在你的智能体中获取这篇论文:

hf papers read 2606.11926

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2606.11926,以便从本页面链接。

引用该论文的数据集 0

无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.11926,以便从本页面链接。

引用该论文的 Spaces 0

无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2606.11926,以便从本页面链接。

包含该论文的收藏集 0

无收藏集包含此论文

将该论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便从本页面链接。

相似文章

Arbor:树搜索作为自主代理的认知层

arXiv cs.AI

Arbor 引入了结构化树搜索作为自主代理的认知层,通过制衡多代理架构,实现多日、全栈 LLM 推理优化,相比供应商基线,吞吐量-延迟提升高达 193%。

@_akhaliq: 论文:

X AI KOLs Following

一篇论文介绍了Arbor,这是一种AI框架,通过结合策略协调、隔离假设测试和持久知识树,实现跨多个领域的自主科学研究,并迭代改进研究成果。