标签
Collider-Bench是一个新基准,评估LLM代理仅使用公开论文和开源软件复现大型强子对撞机粒子物理分析的能力,需要物理推理来填补缺失的实现细节。
DeepCode 是一个完全自主的框架,用于从文档到代码库的合成,通过原则性的信息流管理将科学论文转化为生产级代码,在 PaperBench 上取得了最先进的结果,并超越了博士级人类专家。