ARIS:通过对抗性多智能体协作实现自主研究

Papers with Code Trending 论文

摘要

ARIS 是一个开源研究框架,利用跨模型的对抗性协作,通过协调执行、编排和保障层,确保长期研究结果的可靠性。

本报告描述了 ARIS(Auto-Research-in-sleep),这是一个用于自主研究的开源框架,涵盖其架构、保障机制以及早期部署经验。基于大语言模型(LLM)构建的智能体系统的性能既取决于模型权重,也取决于围绕模型的框架,后者决定了应向模型存储、检索和呈现哪些信息。对于长期研究工作流程而言,核心失败模式并非显而易见的崩溃,而是看似合理但缺乏支持的成功:长期运行的智能体可能产生证据支持不完整、报告错误或从执行者的框架中隐性继承的主张。因此,我们提出将 ARIS 作为一种研究框架,默认通过跨模型的对抗性协作来协调机器学习研究工作流程:由执行器模型推动进展,同时建议来自不同模型系列的评审员对中间工件进行批判性评估并要求修改。 ARIS 具有三个架构层。执行层提供超过 65 种可复用的由 Markdown 定义的技能、通过 MCP 进行的模型集成、用于迭代复用先前发现的持久化研究 Wiki,以及确定性图表生成。编排层协调五个端到端的工作流程,具备可调整的努力程度设置和可配置的路由至评审员模型的功能。保障层包括一个三阶段流程,用于检查实验主张是否得到证据支持:完整性验证、结果与主张的映射,以及主张审计(将手稿陈述与主张台账和原始证据进行交叉核对),此外还包括五轮科学编辑流程、数学证明检查和渲染后的 PDF 视觉检查。一个原型的自改进循环记录了研究痕迹,并提出了框架改进建议,这些建议仅在获得评审员批准后才会被采纳。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:36

论文页面 - ARIS:通过对抗性多智能体协作实现自主研究

来源:https://huggingface.co/papers/2605.03042

摘要

ARIS 是一个开源研究框架,它利用跨模型对抗性协作,通过协调执行、编排和保障层来确保长期的研究结果可靠。

本报告介绍了 ARIS(Auto-Research-in-sleep,睡眠中自动研究),这是一个用于自主研究的开源框架(https://huggingface.co/papers?q=research%20harness),内容包括其架构、保障机制以及早期的部署经验。基于大语言模型(LLMs)(https://huggingface.co/papers?q=LLMs)构建的智能体系统(https://huggingface.co/papers?q=agent%20systems)的性能既取决于模型权重(https://huggingface.co/papers?q=model%20weights),也取决于围绕模型运行的框架,该框架决定了向模型存储、检索和呈现哪些信息。对于长周期的研究工作流,主要的故障模式并非明显的崩溃,而是看似合理但缺乏支持的“成功”:长期运行的智能体可能产生主张,这些主张的证据支持不完整、被错误报告,或者 silently inherited(静默继承)自执行器的框架设定。因此,我们提出 ARIS 作为一个研究框架(https://huggingface.co/papers?q=research%20harness),默认配置下通过跨模型对抗性协作(https://huggingface.co/papers?q=cross-model%20adversarial%20collaboration)来协调机器学习研究工作流:一个执行器模型(https://huggingface.co/papers?q=executor%20model)推动进展,而来自不同模型家族的评审员则被建议对中间产物进行批评并请求修改。ARIS 具有三个架构层。执行层提供超过 65 种可复用的 Markdown 定义技能(https://huggingface.co/papers?q=Markdown-defined%20skills),通过 MCP(https://huggingface.co/papers?q=MCP)实现模型集成,一个持久化研究维基(https://huggingface.co/papers?q=persistent%20research%20wiki)用于迭代复用先前的发现,以及确定性图表生成(https://huggingface.co/papers?q=deterministic%20figure%20generation)。编排层协调五个端到端工作流(https://huggingface.co/papers?q=end-to-end%20workflows),支持可调节的努力程度设置(https://huggingface.co/papers?q=adjustable%20effort%20settings)和可配置的评审模型(https://huggingface.co/papers?q=reviewer%20model)路由(https://huggingface.co/papers?q=configurable%20routing)。保障层包括一个三阶段流程,用于检查实验主张是否得到证据支持:完整性验证(https://huggingface.co/papers?q=integrity%20verification)、结果到主张的映射(https://huggingface.co/papers?q=result-to-claim%20mapping)以及主张审计(https://huggingface.co/papers?q=claim%20auditing),后者将手稿陈述与主张台账和原始证据进行交叉核对;此外还包括五遍科学编辑流程(https://huggingface.co/papers?q=scientific-editing%20pipeline)、数学证明检查(https://huggingface.co/papers?q=mathematical-proof%20checks)以及渲染后 PDF 的视觉检查(https://huggingface.co/papers?q=visual%20inspection)。原型自改进循环记录研究痕迹并提出框架改进建议,这些建议仅在获得评审员批准后才会被采纳。

查看 arXiv 页面 (https://arxiv.org/abs/2605.03042) 查看 PDF (https://arxiv.org/pdf/2605.03042) 项目页面 (https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep) GitHub 8.39k (https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03042)

在您的智能体中获取这篇论文:

hf papers read 2605.03042

没有最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.03042 以从此页面链接它。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.03042 以从此页面链接它。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.03042 以从此页面链接它。

包含此论文的合集 4

相似文章

智能体资源发现规范

Hacker News Top

智能体资源发现规范(ARD)定义了一项标准,使AI客户端能够动态发现外部能力(如工具、MCP服务器、API及其他智能体),从而实现超越静态知识的无缝集成。

Agentic 资源发现:让代理自主搜索

Hugging Face Blog

Hugging Face 与合作伙伴推出了 Agentic Resource Discovery (ARD),这是一项开放规范,用于在运行时动态发现工具、技能和代理,超越了静态安装的模式。