神经科学数据到发现流程中AI代理评估的案例研究

arXiv cs.AI 论文

摘要

本文提出了一项实证研究,评估通用编码代理在果蝇光遗传学数据到发现流程中的表现。研究发现,虽然代理能够自动化单个阶段,但在需要科学判断和资源管理的端到端任务中表现不佳。

arXiv:2606.07718v1 公告类型:新 摘要:通用AI工具为自动化科学研究流程中的软件开发瓶颈提供了一条有希望的路径,特别是对于需要领域专家花费数天到数月构建的阶段,科学家关心的是正确性和稳健性,而非实现细节。我们提出了一项关于通用编码代理在果蝇光遗传学数据到发现流程中的实证研究。我们在比现有基准大得多的任务、数量级更大的数据集以及基于领域专家标准的评估标准上评估代理。我们表明,代理可以解决几个单独的处理阶段,这表明阶段级别的自动化是可行的。通过分析代理的代码迭代,我们表明,当没有预定义的标准进行迭代时,代理最难以完成任务,而必须使用其科学判断来评估当前解决方案,这是一个关键的开创性挑战。与科学实践相呼应,它们有时会尝试对中间输出进行视觉检查以进行自我评估,但大多未能正确解释所见内容或采取相应行动。正确完成端到端流程需要将所有流程阶段的成果串联起来,这超出了代理当前的能力。我们识别出了现有基准中基本不存在的挑战,包括计算资源管理和对大型保留数据集的泛化。最后,我们提炼了构建科学任务和为开放性问题制定严格评估标准的原则。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:52

# 关于AI智能体在神经科学数据到发现管道中评估的案例研究
来源:https://arxiv.org/abs/2606.07718
查看PDF (https://arxiv.org/pdf/2606.07718)

> **摘要:** 智能体AI工具为自动化科研管道中的软件开发瓶颈提供了有前景的路径,尤其适用于那些需要领域专家花费数天到数月构建的阶段——科学家关注的是正确性和鲁棒性,而非实现细节。我们针对果蝇光遗传学数据到发现管道,对通用编码智能体进行了实证研究。我们评估的智能体任务规模远大于现有基准,数据集数量级更大,评估标准基于领域专家标准。结果表明,智能体能够解决多个独立的管道阶段,表明阶段级自动化是可行的。通过分析智能体的代码迭代,我们发现它们在缺乏预定义迭代标准时最为吃力,此时它们必须依赖科学判断来评估当前解决方案——这是一个关键开放性挑战。与科学实践类似,它们有时会尝试对中间输出进行视觉检查以实现自我评估,但大多无法正确解释所见内容或据此采取适当行动。正确完成端到端管道需要将所有管道阶段的成功串联起来,这超出了当前智能体的能力范围。我们识别出一些现有基准中基本缺失的挑战,包括计算资源管理以及对大规模保留数据集的泛化问题。最后,我们提炼出构建科学任务的原则,并为开放性问题设定了严格的评估标准。

## 提交历史

来自:Kai Horstmann [查看电子邮件 (https://arxiv.org/show-email/c7c1c30c/2606.07718)] **\[v1\]** 2026年6月5日星期五 15:38:18 UTC (7,218 KB)

相似文章

自动化智能体评估的实证研究

arXiv cs.CL

本文介绍了 EvalAgent,这是一个通过编码领域专业知识来自动化 AI 智能体评估的系统,旨在解决标准编程助手在此任务中的局限性。此外,本文还提出了用于测试评估流程的基准 AgentEvalBench,并展示了在评估可靠性方面的显著提升。

AI编程代理可复现社会科学发现

arXiv cs.CL

本文介绍了SocSci-Repro-Bench,这是一个包含221个任务的基准测试,用于评估AI编程代理从原始数据和代码中复现社会科学发现的能力。研究发现,像Claude Code和Codex这样的前沿代理可以复现大部分结果,其中Claude明显优于Codex,并且结果并非主要由记忆驱动。