ARIS:通过对抗性多智能体协作实现自主研究
摘要
ARIS 是一个开源研究框架,利用跨模型的对抗性协作,通过协调执行、编排和保障层,确保长期研究结果的可靠性。
查看缓存全文
缓存时间: 2026/05/08 08:36
论文页面 - ARIS:通过对抗性多智能体协作实现自主研究
来源:https://huggingface.co/papers/2605.03042
摘要
ARIS 是一个开源研究框架,它利用跨模型对抗性协作,通过协调执行、编排和保障层来确保长期的研究结果可靠。
本报告介绍了 ARIS(Auto-Research-in-sleep,睡眠中自动研究),这是一个用于自主研究的开源框架(https://huggingface.co/papers?q=research%20harness),内容包括其架构、保障机制以及早期的部署经验。基于大语言模型(LLMs)(https://huggingface.co/papers?q=LLMs)构建的智能体系统(https://huggingface.co/papers?q=agent%20systems)的性能既取决于模型权重(https://huggingface.co/papers?q=model%20weights),也取决于围绕模型运行的框架,该框架决定了向模型存储、检索和呈现哪些信息。对于长周期的研究工作流,主要的故障模式并非明显的崩溃,而是看似合理但缺乏支持的“成功”:长期运行的智能体可能产生主张,这些主张的证据支持不完整、被错误报告,或者 silently inherited(静默继承)自执行器的框架设定。因此,我们提出 ARIS 作为一个研究框架(https://huggingface.co/papers?q=research%20harness),默认配置下通过跨模型对抗性协作(https://huggingface.co/papers?q=cross-model%20adversarial%20collaboration)来协调机器学习研究工作流:一个执行器模型(https://huggingface.co/papers?q=executor%20model)推动进展,而来自不同模型家族的评审员则被建议对中间产物进行批评并请求修改。ARIS 具有三个架构层。执行层提供超过 65 种可复用的 Markdown 定义技能(https://huggingface.co/papers?q=Markdown-defined%20skills),通过 MCP(https://huggingface.co/papers?q=MCP)实现模型集成,一个持久化研究维基(https://huggingface.co/papers?q=persistent%20research%20wiki)用于迭代复用先前的发现,以及确定性图表生成(https://huggingface.co/papers?q=deterministic%20figure%20generation)。编排层协调五个端到端工作流(https://huggingface.co/papers?q=end-to-end%20workflows),支持可调节的努力程度设置(https://huggingface.co/papers?q=adjustable%20effort%20settings)和可配置的评审模型(https://huggingface.co/papers?q=reviewer%20model)路由(https://huggingface.co/papers?q=configurable%20routing)。保障层包括一个三阶段流程,用于检查实验主张是否得到证据支持:完整性验证(https://huggingface.co/papers?q=integrity%20verification)、结果到主张的映射(https://huggingface.co/papers?q=result-to-claim%20mapping)以及主张审计(https://huggingface.co/papers?q=claim%20auditing),后者将手稿陈述与主张台账和原始证据进行交叉核对;此外还包括五遍科学编辑流程(https://huggingface.co/papers?q=scientific-editing%20pipeline)、数学证明检查(https://huggingface.co/papers?q=mathematical-proof%20checks)以及渲染后 PDF 的视觉检查(https://huggingface.co/papers?q=visual%20inspection)。原型自改进循环记录研究痕迹并提出框架改进建议,这些建议仅在获得评审员批准后才会被采纳。
查看 arXiv 页面 (https://arxiv.org/abs/2605.03042) 查看 PDF (https://arxiv.org/pdf/2605.03042) 项目页面 (https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep) GitHub 8.39k (https://github.com/wanshuiyin/Auto-claude-code-research-in-sleep) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.03042)
在您的智能体中获取这篇论文:
hf papers read 2605.03042
没有最新的 CLI? curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.03042 以从此页面链接它。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.03042 以从此页面链接它。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2605.03042 以从此页面链接它。
包含此论文的合集 4
相似文章
AutoResearchClaw:自我强化的自主研究与人机协作
AutoResearchClaw是一个多智能体自主研究系统,通过结构化辩论、自我修复执行和人机协作来改进科学发现,在ARC-Bench基准上比之前的系统高出54.7%。
解决AI中的ARD问题:Agentic Resource Discovery(2分钟阅读)
一个名为Agentic Resource Discovery(ARD)的新协议,由Google、Microsoft、Cisco、Nvidia和Salesforce支持,旨在标准化AI代理如何发现和使用跨企业系统的工具和服务,使代理能够自主地从不同孤岛中发现和查询资源。
智能体资源发现规范
智能体资源发现规范(ARD)定义了一项标准,使AI客户端能够动态发现外部能力(如工具、MCP服务器、API及其他智能体),从而实现超越静态知识的无缝集成。
Agentic 资源发现:让代理自主搜索
Hugging Face 与合作伙伴推出了 Agentic Resource Discovery (ARD),这是一项开放规范,用于在运行时动态发现工具、技能和代理,超越了静态安装的模式。
仲裁者代理:持续监控多智能体对话以检测突发性失调
本文介绍了仲裁者(Arbiter),一个在有限检查预算下持续监控多智能体对话以检测突发性失调的代理,展示了在各种失调条件下可靠的早期检测能力。