@HuggingPapers: Microsoft Research 推出 Arbor,一个使用持久假设树精炼的通用自主研究代理…
摘要
Microsoft Research 推出 Arbor,一个使用持久假设树精炼进行累积学习的通用自主研究代理,在六个研究任务上超越 Codex 和 Claude Code,并在 MLE-Bench Lite 上达到 86% 的 Any-Medal。
Microsoft Research 推出 Arbor
一个通用自主研究代理,使用持久假设树精炼将长期探索转化为累积学习。它在六个研究任务上击败了 Codex 和 Claude Code,并在 MLE-Bench Lite 上达到 86% 的 Any-Medal。https://t.co/A1fxTxnskk
查看缓存全文
缓存时间: 2026/06/11 17:39
微软研究院推出 Arbor
一款通用自主研究代理,利用持久假设树精炼将长期探索转化为累积学习。它在6项研究任务中击败了Codex和Claude Code,并在MLE-Bench Lite上达到86%的Any-Medal水平。https://t.co/A1fxTxnskk
相似文章
通过假设树优化实现通用自主研究
Arbor是一个用于自主科学研究的AI框架,它使用协调器、执行器和一个持久的假设树,在多个领域迭代改进研究成果,在六个真实研究任务上取得了强劲的成果。
Arbor:树搜索作为自主代理的认知层
Arbor 引入了结构化树搜索作为自主代理的认知层,通过制衡多代理架构,实现多日、全栈 LLM 推理优化,相比供应商基线,吞吐量-延迟提升高达 193%。
@_akhaliq: 论文:
一篇论文介绍了Arbor,这是一种AI框架,通过结合策略协调、隔离假设测试和持久知识树,实现跨多个领域的自主科学研究,并迭代改进研究成果。
@_akhaliq: 通过假设树精炼迈向通用自主研究
本文提出了一种面向自主研究代理的方法,通过假设树精炼生成并测试假设,旨在实现通用科学发现。
AutoResearchClaw:自我强化的自主研究与人机协作
AutoResearchClaw是一个多智能体自主研究系统,通过结构化辩论、自我修复执行和人机协作来改进科学发现,在ARC-Bench基准上比之前的系统高出54.7%。