scientific-reproduction

标签

Cards List
#scientific-reproduction

Collider-Bench: 以粒子物理分析复现基准测试AI代理

arXiv cs.LG · 2026-05-15 缓存

Collider-Bench是一个新基准,评估LLM代理仅使用公开论文和开源软件复现大型强子对撞机粒子物理分析的能力,需要物理推理来填补缺失的实现细节。

0 人收藏 0 人点赞
#scientific-reproduction

DeepCode:开放式智能体编程

Papers with Code Trending · 2025-12-08 缓存

DeepCode 是一个完全自主的框架,用于从文档到代码库的合成,通过原则性的信息流管理将科学论文转化为生产级代码,在 PaperBench 上取得了最先进的结果,并超越了博士级人类专家。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈