autonomous-research

标签

Cards List
#autonomous-research

@yibie: 推荐这篇文章,Superpowers 的作者让 Fable 5 跑了一个完整的 autoresearch loop——25 个实验,$165,把构建速度提高了 50%、token 开销降低了 60%。但这篇最值钱的不是结果数字,是他完整记…

X AI KOLs Timeline · 11小时前 缓存

Superpowers 6 发布,利用 Fable 5 进行 25 个自治实验,将构建速度提高 50%、token 开销降低 60%,并详细记录了实验过程和失败教训。

0 人收藏 0 人点赞
#autonomous-research

AI交通科学家自主发现交通法规

arXiv cs.AI · 15小时前 缓存

本文介绍了TrafficSci,一种自主AI系统,通过迭代工作流程自动化发现跨城市的通用交通法规,成功重新发现了已建立的法规,并识别出城市驾驶行为中一种新的时间记忆尺度。

0 人收藏 0 人点赞
#autonomous-research

@VraserX:OpenAI的AI研究实习生,预计9月到来,让我感觉像是早期的AGI。并不是因为它是什么神奇的超级大脑……

X AI KOLs Timeline · 3天前 缓存

一条推文推测,OpenAI即将推出的AI研究实习生(9月)感觉像早期AGI,并预测到2027-2028年将出现完全自主的AI研究员,这可能是第一个ASI。

0 人收藏 0 人点赞
#autonomous-research

@VukRosic99: 用一次提示构建LLM + 设置DeepSeek研究员(其副业)的自动研究系统 一个实时构建过程,通过一次提示创建完整…

X AI KOLs Timeline · 5天前 缓存

演示了通过向AI编码代理(Claude Code/Codex)发送单个提示来构建完整的LLM,并安装由DeepSeek研究员开发的自主AI研究技能,涵盖架构、故障模式以及无人值守运行。

0 人收藏 0 人点赞
#autonomous-research

@VukRosic99: DeepSeek 研究员刚刚开源了他的个人项目 AutoResearch。该项目首次实现了自动化研究代理...

X AI KOLs Timeline · 2026-06-18 缓存

DeepSeek 研究员开源了 AutoResearch,这是一个自主框架,能够在无需人工干预的情况下,为 DeepSeek 285B 模型规划、执行并调试强化学习实验,并附带了一篇关于自我对弈的综述论文。

0 人收藏 0 人点赞
#autonomous-research

@OpenAI: GPT-5.4 帮助推动了一个药物化学项目,从文献综述到验证的实验结果。与…

X AI KOLs · 2026-06-17 缓存

GPT-5.4 与 Molecule.one 的 Maria AI 平台合作,自主推动了一个药物化学项目,从文献综述到验证的实验结果,提出了对药物发现中广泛应用的反应的意外改进。

0 人收藏 0 人点赞
#autonomous-research

@victor207755822:Deli AutoResearch SKILL 现已正式开源!https://victorchen96.github.io/auto_research/framework.html… 还有…

X AI KOLs Timeline · 2026-06-17 缓存

Deli AutoResearch SKILL 已开源,这是一个自主框架,可自动化 GPU 实验和强化学习流水线,同时附带一篇关于自我对弈的综述论文。

0 人收藏 0 人点赞
#autonomous-research

Sakana Marlin(4分钟阅读)

TLDR AI · 2026-06-16 缓存

Sakana AI 发布其首款商业产品 Sakana Marlin,这是一款自主研究助手,可在数小时内完成策略工作,生成结构化的幻灯片和详细报告。

0 人收藏 0 人点赞
#autonomous-research

@THUTeamEureka: 1/3 很高兴开源EurekAgent!一个完全自主的研究系统,用于指标驱动的任务,基于Claude Code构建……

X AI KOLs Timeline · 2026-06-15 缓存

THU Team Eureka 开源了 EurekAgent,这是一个基于 Claude Code 构建的自主研究系统,通过环境工程在数学、内核工程和机器学习任务上取得了最先进的结果。

0 人收藏 0 人点赞
#autonomous-research

@_akhaliq: 论文:

X AI KOLs Following · 2026-06-11 缓存

一篇论文介绍了Arbor,这是一种AI框架,通过结合策略协调、隔离假设测试和持久知识树,实现跨多个领域的自主科学研究,并迭代改进研究成果。

0 人收藏 0 人点赞
#autonomous-research

@_akhaliq: 通过假设树精炼迈向通用自主研究

X AI KOLs Following · 2026-06-11 缓存

本文提出了一种面向自主研究代理的方法,通过假设树精炼生成并测试假设,旨在实现通用科学发现。

0 人收藏 0 人点赞
#autonomous-research

通过假设树优化实现通用自主研究

Hugging Face Daily Papers · 2026-06-10 缓存

Arbor是一个用于自主科学研究的AI框架,它使用协调器、执行器和一个持久的假设树,在多个领域迭代改进研究成果,在六个真实研究任务上取得了强劲的成果。

0 人收藏 0 人点赞
#autonomous-research

ResearchClawBench:面向端到端自主科学研究的标准基准

arXiv cs.LG · 2026-06-09 缓存

ResearchClawBench是一个评估端到端自主科学研究的基准,涵盖10个领域的40个任务,采用专家精心设计的评分标准。当前系统得分较低,凸显了实现可靠自主科学发现的挑战。

0 人收藏 0 人点赞
#autonomous-research

基于自演化多智能体数字孪生的自主多相催化剂发现

arXiv cs.AI · 2026-06-08 缓存

本文介绍了CatDT,一个自演化多智能体数字孪生系统,能够从块体晶体和反应描述中自主预测多相催化剂性质,在七个基准测试中达到实验精度,并发现了用于丙烷脱氢的非贵金属催化剂候选物。

0 人收藏 0 人点赞
#autonomous-research

@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?

X AI KOLs Following · 2026-06-04 缓存

AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。

0 人收藏 0 人点赞
#autonomous-research

AutoMedBench:迈向基于智能体AI模型的医学自动研究

Hugging Face Daily Papers · 2026-06-01 缓存

AutoMedBench是一个面向自主医学AI研究工作流的基准测试,评估智能体在五个阶段中处理多种医学影像任务的表现。阶段级评分显示,验证阶段最弱,凸显了智能体工作流中可靠验证的必要性。

0 人收藏 0 人点赞
#autonomous-research

ResearchClawBench:面向端到端自主科学研究的基准测试

Hugging Face Daily Papers · 2026-05-28 缓存

ResearchClawBench 是一个用于评估端到端自主科学研究的基准测试,涵盖来自10个领域的40个任务,结果显示当前AI智能体和LLM的重新发现准确率较低,其中Claude Code平均得分为21.5,Claude-Opus-4.7平均得分为20.7(在可能的总分中)。

0 人收藏 0 人点赞
#autonomous-research

ScientistOne:通过 Chain-of-Evidence 实现人类级自主研究

arXiv cs.AI · 2026-05-27 缓存

ScientistOne 引入了 Chain-of-Evidence,这是一个面向自主研究代理的可验证性框架,确保每个声明都可追溯到证据来源。该框架实现了零幻觉引用、完美的分数验证,并在 75 篇论文中达到了最高的方法-代码对齐度,同时在五个前沿研究任务上达到或超过了人类专家水平。

0 人收藏 0 人点赞
#autonomous-research

@RodmanAi: 我的天。有人刚刚开源了一个金融大脑。它叫Dexter。→ 发现被低估的股票 → 解析...

X AI KOLs Timeline · 2026-05-22 缓存

Dexter是一个开源自主金融研究代理,利用实时数据、任务规划和自我反思来分析股票并构建投资论点。

0 人收藏 0 人点赞
#autonomous-research

@sitinme: 看到 Karpathy 开源了一个很有意思的项目autoresearch,把一个真实但小型的 LLM 训练任务交给 AI Agent,让它自己做研究、改代码、跑实验、看结果,然后决定保留还是放弃这次改动。 这个项目基于单张 NVIDIA …

X AI KOLs Timeline · 2026-05-21 缓存

Karpathy 开源了一个实验性项目 autoresearch,让 AI Agent 自动完成小规模 LLM 训练的研究循环:修改代码、运行实验、评估结果并迭代优化,人类只需编写研究计划和约束。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈