research-lifecycle

#research-lifecycle

扮演真正的研究者：一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集

arXiv cs.AI ↗ · 2026-06-08 缓存

本文介绍了AARR（扮演真正的研究者）基准系列，旨在评估前沿大语言模型和代理系统在细粒度研究场景中的表现。首个基准AARRI-Bench显示，即使表现最佳的代理成功率也仅为68.3%，凸显了其在领域敏感性和细微推理能力方面的不足。

0 人收藏 0 人点赞

#research-lifecycle

X AI KOLs Timeline ↗ · 2026-05-22 缓存

对学术研究生命周期中250多种AI工具的全面调查，确定了五个关键原则，并强调了AI生成与验证能力之间日益扩大的差距。

0 人收藏 0 人点赞

#research-lifecycle

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

本文调研了AI在整个研究生命周期中的能力与局限，从创意生成到成果发布，识别出可靠辅助与不可靠自主之间的明确界限。它提供了一个分类体系、基准测试套件、工具清单以及人类主导的AI协作研究设计原则。

0 人收藏 0 人点赞