difficulty-ceiling

标签

Cards List
#difficulty-ceiling

LoHoSearch:超越人类难度上限的长时域搜索智能体基准

arXiv cs.CL · 23小时前 缓存

LoHoSearch是一个用于评估长时域搜索智能体的新基准,基于包含700万维基百科实体的知识图谱构建。它引入了具有大搜索空间和结构复杂性的问题,以超越人类编写的难度上限,并显示出最佳模型仅达到34.74%的准确率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈