contamination-free

标签

Cards List
#contamination-free

EvoBrowseComp:面向演进知识的搜索代理基准测试

arXiv cs.CL · 20小时前 缓存

本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。

0 人收藏 0 人点赞
#contamination-free

EvoBrowseComp:面向演进知识的搜索智能体基准测试

Hugging Face Daily Papers · 2天前 缓存

EvoBrowseComp是一个演进式基准测试集,包含800个无污染的问题,用于评估搜索智能体,旨在通过三智能体框架防止参数记忆并保持时间新鲜度。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈