标签
LoHoSearch是一个用于评估长时域搜索智能体的新基准,基于包含700万维基百科实体的知识图谱构建。它引入了具有大搜索空间和结构复杂性的问题,以超越人类编写的难度上限,并显示出最佳模型仅达到34.74%的准确率。