BitTide
首页
最新
模型
工具
新闻
产品
论文
事件
今日日报
搜索
订阅
English
登录
daily-search
标签
Cards
List
#daily-search
DailyReport:一个用于评估日常搜索任务中搜索代理的开放式基准
arXiv cs.AI
↗
· 18小时前
缓存
DailyReport 是一个开放式基准,用于评估搜索代理在日常生活搜索任务中的表现,包含150个任务和3,546条评分标准,可实现可解释的、以用户为中心的评估。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交