标签
Deli Chen 开源了他的 AutoResearch SKILL 工具,并发布了一篇受 AlphaZero 启发的关于自博弈(Self-play)的综述论文。
SIQ-1 Qwen3.6 是一款专为自动化研究和自主代理任务设计的新型AI模型,通过增强的代理能力扩展了Qwen系列。
PseudoBench 是一个基准测试,用于评估基于 LLM 的智能自动研究系统能否抵御伪科学叙述。对七款最先进的智能体进行测试后发现,它们极易生成具有说服力的伪科学报告,且拒绝率接近于零,这要求在部署前进行科学对齐。
NVIDIA GEAR实验室推出了ENPIRE,这是一个使用8个Codex智能体自主控制机器人舰队执行物理任务(如扎扎带、安装GPU)的系统,展示了自我改进的机器人研究以及一种新的'physical scaling'现象。
一个精选的GitHub资源,将AI辅助的科研工具和论文映射到整个研究生命周期,从创意生成到成果传播。
Yacine进行了一次1.5小时的深度访谈,与Paradigma创始人讨论如何将DAG(有向无环图)作为自主科研的底层基础设施,涵盖Agent运行、大型公开DAG构建、避免坏DAG等核心主题。
访谈讨论了使用DAG进行自动研究的基础设施,包括智能体如何执行DAG以及如何构建大型公共DAG。
AutoResearchClaw 是一个 GitHub 仓库,它能够将整个 AI 研究流程自动化——从想法到完整的会议论文,包含真实的实验、经过验证的引用和可运行的代码,在 55 个主题的基准测试中,比之前的自主研究系统性能提升 54.7%。
本文介绍了ResearchArena,一个用于评估自动研究智能体的框架,并发现虽然智能体生成的论文在仅稿件评审下看似具有竞争力,但结合工件的评审揭示了实验严谨性方面的严重缺陷,没有一篇论文达到顶级会议的接收标准。
本文介绍了一种自动研究框架,利用专家代理通过代码执行与反馈的经验闭环,迭代优化训练配方。该系统借助谱系反馈(lineage feedback),无需人工干预,即可在 Parameter Golf 和 NanoChat 等任务上自主提升性能。
Thesis Labs 推出 Automode,可在 Optiver 交易数据集上全自动完成机器学习研究。