通过假设树优化实现通用自主研究
摘要
Arbor是一个用于自主科学研究的AI框架,它使用协调器、执行器和一个持久的假设树,在多个领域迭代改进研究成果,在六个真实研究任务上取得了强劲的成果。
查看缓存全文
缓存时间: 2026/06/11 13:39
论文页面 - 迈向通才自主研究:基于假设树精炼框架
来源:https://huggingface.co/papers/2606.11926
发布于 6 月 10 日
#2 当日论文 (https://huggingface.co/papers/date/2026-06-11)
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一个名为 Arbor 的人工智能框架,通过结合战略协调、隔离假设测试以及持久知识树,能够在多个领域迭代提升研究成果,从而实现自主科学研究。
科学进步依赖于探索、实验和抽象化的循环往复。研究者测试候选方向,解读证据,并将所得经验应用于后续尝试。我们研究 AI 智能体如何自主地运行这一循环,并跨越长时间跨度(https://huggingface.co/papers?q=long%20horizons)。我们引入了 Arbor,一个面向自主研究(https://huggingface.co/papers?q=autonomous%20research)的通用框架,它结合了长期存在的协调者(coordinator)(https://huggingface.co/papers?q=coordinator)、短期存在的执行器(executors)(https://huggingface.co/papers?q=executors)以及假设树精炼(Hypothesis Tree Refinement, HTR)(https://huggingface.co/papers?q=Hypothesis%20Tree%20Refinement)——一棵持久的树结构,用于跨时间链接假设、工件、证据和提炼出的洞见。协调者负责全局研究策略的树级管理,而执行器则在隔离的工作树(worktrees)(https://huggingface.co/papers?q=worktrees)中实施并测试单个假设。当结果返回时,Arbor 更新树结构,传播可复用的经验,精炼搜索前沿,并接纳已验证的改进。这一设计将自主研究从一系列局部尝试转变为一种累积过程,在此过程中,策略、执行和证据得以跨时间传递。我们在自主优化(Autonomous Optimization, AO)设定下评估 Arbor,该设定中,智能体通过迭代实验(iterative experimentation)(https://huggingface.co/papers?q=iterative%20experimentation)改进初始研究工件(research artifact)(https://huggingface.co/papers?q=research%20artifact),无需步骤级别的人类监督。在六个真实研究任务(涉及模型训练、工具工程和数据合成)中,Arbor 在所有六个任务上均取得了最佳的保留测试结果(held-out result)(https://huggingface.co/papers?q=held-out%20result),平均相对保留增益超过 Codex 和 Claude Code 在相同任务接口和资源预算下的 2.5 倍。在 MLE-Bench Lite(https://huggingface.co/papers?q=MLE-Bench%20Lite)上,Arbor 配合 GPT-5.5 达到了 86.36% 的任意奖牌率,这是我们对比中最强的结果。
查看 arXiv 页面 (https://arxiv.org/abs/2606.11926) | 查看 PDF (https://arxiv.org/pdf/2606.11926) | 项目页面 (https://ruc-nlpir.github.io/Arbor/) | GitHub63 (https://github.com/RUC-NLPIR/Arbor) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11926)
在你的智能体中获取这篇论文:
hf papers read 2606.11926
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2606.11926,以便从本页面链接。
引用该论文的数据集 0
无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.11926,以便从本页面链接。
引用该论文的 Spaces 0
无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2606.11926,以便从本页面链接。
包含该论文的收藏集 0
无收藏集包含此论文
将该论文添加到一个收藏集(https://huggingface.co/new-collection)中,以便从本页面链接。
相似文章
@_akhaliq: 通过假设树精炼迈向通用自主研究
本文提出了一种面向自主研究代理的方法,通过假设树精炼生成并测试假设,旨在实现通用科学发现。
@HuggingPapers: Microsoft Research 推出 Arbor,一个使用持久假设树精炼的通用自主研究代理…
Microsoft Research 推出 Arbor,一个使用持久假设树精炼进行累积学习的通用自主研究代理,在六个研究任务上超越 Codex 和 Claude Code,并在 MLE-Bench Lite 上达到 86% 的 Any-Medal。
Arbor:树搜索作为自主代理的认知层
Arbor 引入了结构化树搜索作为自主代理的认知层,通过制衡多代理架构,实现多日、全栈 LLM 推理优化,相比供应商基线,吞吐量-延迟提升高达 193%。
@_akhaliq: 论文:
一篇论文介绍了Arbor,这是一种AI框架,通过结合策略协调、隔离假设测试和持久知识树,实现跨多个领域的自主科学研究,并迭代改进研究成果。
AutoResearchClaw:自我强化的自主研究与人机协作
AutoResearchClaw是一个多智能体自主研究系统,通过结构化辩论、自我修复执行和人机协作来改进科学发现,在ARC-Bench基准上比之前的系统高出54.7%。