标签
本文介绍了AARR(扮演真正的研究者)基准系列,旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示,即使表现最佳的代理成功率也仅为68.3%,凸显了其在领域敏感性和细微推理能力方面的不足。
对学术研究生命周期中250多种AI工具的全面调查,确定了五个关键原则,并强调了AI生成与验证能力之间日益扩大的差距。
本文调研了AI在整个研究生命周期中的能力与局限,从创意生成到成果发布,识别出可靠辅助与不可靠自主之间的明确界限。它提供了一个分类体系、基准测试套件、工具清单以及人类主导的AI协作研究设计原则。