神经科学数据到发现流程中AI代理评估的案例研究

arXiv cs.AI 2026/06/09 04:00 论文

neuroscience ai-agents scientific-pipeline evaluation benchmark automation

摘要

本文提出了一项实证研究，评估通用编码代理在果蝇光遗传学数据到发现流程中的表现。研究发现，虽然代理能够自动化单个阶段，但在需要科学判断和资源管理的端到端任务中表现不佳。

arXiv:2606.07718v1 公告类型：新摘要：通用AI工具为自动化科学研究流程中的软件开发瓶颈提供了一条有希望的路径，特别是对于需要领域专家花费数天到数月构建的阶段，科学家关心的是正确性和稳健性，而非实现细节。我们提出了一项关于通用编码代理在果蝇光遗传学数据到发现流程中的实证研究。我们在比现有基准大得多的任务、数量级更大的数据集以及基于领域专家标准的评估标准上评估代理。我们表明，代理可以解决几个单独的处理阶段，这表明阶段级别的自动化是可行的。通过分析代理的代码迭代，我们表明，当没有预定义的标准进行迭代时，代理最难以完成任务，而必须使用其科学判断来评估当前解决方案，这是一个关键的开创性挑战。与科学实践相呼应，它们有时会尝试对中间输出进行视觉检查以进行自我评估，但大多未能正确解释所见内容或采取相应行动。正确完成端到端流程需要将所有流程阶段的成果串联起来，这超出了代理当前的能力。我们识别出了现有基准中基本不存在的挑战，包括计算资源管理和对大型保留数据集的泛化。最后，我们提炼了构建科学任务和为开放性问题制定严格评估标准的原则。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:52

# 关于AI智能体在神经科学数据到发现管道中评估的案例研究
来源：https://arxiv.org/abs/2606.07718
查看PDF (https://arxiv.org/pdf/2606.07718)

> **摘要：** 智能体AI工具为自动化科研管道中的软件开发瓶颈提供了有前景的路径，尤其适用于那些需要领域专家花费数天到数月构建的阶段——科学家关注的是正确性和鲁棒性，而非实现细节。我们针对果蝇光遗传学数据到发现管道，对通用编码智能体进行了实证研究。我们评估的智能体任务规模远大于现有基准，数据集数量级更大，评估标准基于领域专家标准。结果表明，智能体能够解决多个独立的管道阶段，表明阶段级自动化是可行的。通过分析智能体的代码迭代，我们发现它们在缺乏预定义迭代标准时最为吃力，此时它们必须依赖科学判断来评估当前解决方案——这是一个关键开放性挑战。与科学实践类似，它们有时会尝试对中间输出进行视觉检查以实现自我评估，但大多无法正确解释所见内容或据此采取适当行动。正确完成端到端管道需要将所有管道阶段的成功串联起来，这超出了当前智能体的能力范围。我们识别出一些现有基准中基本缺失的挑战，包括计算资源管理以及对大规模保留数据集的泛化问题。最后，我们提炼出构建科学任务的原则，并为开放性问题设定了严格的评估标准。

## 提交历史

来自：Kai Horstmann [查看电子邮件 (https://arxiv.org/show-email/c7c1c30c/2606.07718)] **\[v1\]** 2026年6月5日星期五 15:38:18 UTC (7,218 KB)

神经科学数据到发现流程中AI代理评估的案例研究

相似文章

神经数据不再无聊：代理型AI在数据复用中的基准测试

@AnthropicAI：新科学博客：为什么AI在编程领域进步快于生物学？对智能体而言，生物数据库就像为汽车时代之前建造的城市……

自动化智能体评估的实证研究

在实际仓库中运行编码代理：代理写完代码后哪些环节会出问题？

AI编程代理可复现社会科学发现

提交意见反馈