标签
Superpowers 6 发布,利用 Fable 5 进行 25 个自治实验,将构建速度提高 50%、token 开销降低 60%,并详细记录了实验过程和失败教训。
本文介绍了TrafficSci,一种自主AI系统,通过迭代工作流程自动化发现跨城市的通用交通法规,成功重新发现了已建立的法规,并识别出城市驾驶行为中一种新的时间记忆尺度。
一条推文推测,OpenAI即将推出的AI研究实习生(9月)感觉像早期AGI,并预测到2027-2028年将出现完全自主的AI研究员,这可能是第一个ASI。
演示了通过向AI编码代理(Claude Code/Codex)发送单个提示来构建完整的LLM,并安装由DeepSeek研究员开发的自主AI研究技能,涵盖架构、故障模式以及无人值守运行。
DeepSeek 研究员开源了 AutoResearch,这是一个自主框架,能够在无需人工干预的情况下,为 DeepSeek 285B 模型规划、执行并调试强化学习实验,并附带了一篇关于自我对弈的综述论文。
GPT-5.4 与 Molecule.one 的 Maria AI 平台合作,自主推动了一个药物化学项目,从文献综述到验证的实验结果,提出了对药物发现中广泛应用的反应的意外改进。
Deli AutoResearch SKILL 已开源,这是一个自主框架,可自动化 GPU 实验和强化学习流水线,同时附带一篇关于自我对弈的综述论文。
Sakana AI 发布其首款商业产品 Sakana Marlin,这是一款自主研究助手,可在数小时内完成策略工作,生成结构化的幻灯片和详细报告。
THU Team Eureka 开源了 EurekAgent,这是一个基于 Claude Code 构建的自主研究系统,通过环境工程在数学、内核工程和机器学习任务上取得了最先进的结果。
一篇论文介绍了Arbor,这是一种AI框架,通过结合策略协调、隔离假设测试和持久知识树,实现跨多个领域的自主科学研究,并迭代改进研究成果。
本文提出了一种面向自主研究代理的方法,通过假设树精炼生成并测试假设,旨在实现通用科学发现。
Arbor是一个用于自主科学研究的AI框架,它使用协调器、执行器和一个持久的假设树,在多个领域迭代改进研究成果,在六个真实研究任务上取得了强劲的成果。
ResearchClawBench是一个评估端到端自主科学研究的基准,涵盖10个领域的40个任务,采用专家精心设计的评分标准。当前系统得分较低,凸显了实现可靠自主科学发现的挑战。
本文介绍了CatDT,一个自演化多智能体数字孪生系统,能够从块体晶体和反应描述中自主预测多相催化剂性质,在七个基准测试中达到实验精度,并发现了用于丙烷脱氢的非贵金属催化剂候选物。
AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。
AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。
ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。
ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。
Dexter是一个开源自主金融研究代理,利用实时数据、任务规划和自我反思来分析股票并构建投资论点。
Karpathy 开源了一个实验性项目 autoresearch,让 AI Agent 自动完成小规模 LLM 训练的研究循环:修改代码、运行实验、评估结果并迭代优化,人类只需编写研究计划和约束。