标签
本文提出了一种面向自主研究代理的方法,通过假设树精炼生成并测试假设,旨在实现通用科学发现。
AutoSci是一个以记忆为中心的智能代理系统,旨在自动化完整的科学研究生命周期,从文献理解到回复审稿意见,使用基于LLM的智能体,具有持久记忆和自我进化能力。
开源AI代理Feynman通过四大智能体协同,将博士级研究流程(包括arXiv调研、文献综述、代码验证)压缩成全自动执行,用户只需一句话指令即可完成。
一个基于Claude Code构建的系统,使其能够从终端控制Google的NotebookLM,通过搜索YouTube、上传资料源,并将带引用的答案直接导出到Obsidian,实现研究自动化。该工作流消除了对多个浏览器标签页和手动复制粘贴的需求,并确保了引用准确性得到验证。
Hugging Face 开源了 ml-intern,一个自主智能体,能够完成整个机器学习后训练循环——阅读论文、查找数据集、编写脚本、生成数据、监控训练并上传权重——在无需人工干预的情况下,使用1.7B模型在10小时内实现了显著的GPQA提升。
一篇综述论文,探讨了AI从特定任务助手到工作流级研究自动化工具的转变,将AutoResearch定义为AI驱动的科学工作流自动化的光谱,并分析了自主性、可重复性和问责制方面的挑战。
ARIS 是一个在 GitHub 上爆火(8.8k stars)的开源工具,它通过轻量级的 Markdown 技能包,让 Claude Code 或其他 LLM Agent 能够自主完成机器学习研究的完整闭环,包括文献调研、实验执行和论文写作。
NanoResearch 是一个多智能体框架,旨在通过协同进化技能、记忆和策略,适应个人用户的偏好和研究风格,从而实现个性化研究自动化。
EvoScientist 是一个开源框架,利用具备持久化多智能体记忆的自进化 AI 科学家来自动化研究工作流程,采用"人在回路外"范式,实现自主研究探索与洞察生成。
本文解释了Manus的Browser Operator如何通过在用户授权的本地浏览器会话中运行,使其能够访问超出典型AI搜索能力的订阅和认证内容,并提供了启用和使用它的逐步指南。
Hugging Face 用自主智能体取代后训练团队,自动读论文、跑 GPU 实验并优化模型,不到 10 小时就在基准测试上提升 22 分,HealthBench 成绩比 Codex 高 60%。
Andrej Karpathy 的 autoresearch 范式揭示:当下 AI 智能体各自为战做实验,重复劳动、浪费算力,还不断「重新发明」死路。
文章认为,到2028年底,完全自动化的AI研发(即AI系统无需人类参与即可构建自己的后继者)的可能性很高(60%以上),引用了SWE-Bench等编码基准的证据以及AI自主性的趋势。