browsing-benchmark

标签

Cards List
#browsing-benchmark

超越单语深度研究:使用跨语言BrowseComp-Plus评估智能体与检索器

arXiv cs.CL · 2026-06-16 缓存

介绍XBCP(跨语言BrowseComp-Plus),这是一个用于在跨语言和多语言环境中评估深度研究智能体和检索器的基准。结果表明,当证据与查询语言不同时,性能显著下降,凸显了检索失败以及智能体在整合语言不匹配证据方面的困难。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈