标签
DailyReport 是一个开放式基准,用于评估搜索代理在日常生活搜索任务中的表现,包含150个任务和3,546条评分标准,可实现可解释的、以用户为中心的评估。
本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。
LoHoSearch是一个用于评估长时域搜索智能体的新基准,基于包含700万维基百科实体的知识图谱构建。它引入了具有大搜索空间和结构复杂性的问题,以超越人类编写的难度上限,并显示出最佳模型仅达到34.74%的准确率。
EvoBrowseComp是一个演进式基准测试集,包含800个无污染的问题,用于评估搜索智能体,旨在通过三智能体框架防止参数记忆并保持时间新鲜度。
FORT-Searcher 提出了一种框架,通过识别和缓解四种捷径风险,为深度搜索智能体合成抗捷径的训练数据。由此产生的智能体经过监督微调训练,在可比较的开源搜索智能体中取得了最先进的性能。
Harness-1 是一个 20B 参数规模的搜索代理,通过使用有状态搜索线索的强化学习进行训练,在检索基准测试中取得了强劲结果,并优于其他开源搜索子代理。
ARBOR 引入了一种可复用的评分缓存,为基于LLM的搜索代理提供在线过程奖励,在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO,将多达42%的零梯度训练组转化为信息丰富的训练组。
Harness-1 引入了一种状态外部化框架,将常规记账与搜索代理中的策略决策分离,使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。
提出了COMPASS,一种认知MCTS引导的过程对齐框架,通过合成攻击轨迹并隔离风险动作来增强LLM驱动的搜索智能体的安全性,在更少的训练数据下实现了良好的安全-效用权衡。
介绍了 Harness-1,一个使用状态外化约束训练的 200 亿参数开源搜索代理,实现了强大的检索性能,并在多个基准测试上超越了更大的前沿模型。
GrepSeek 训练大型语言模型搜索代理,使其能够通过使用 grep 等 shell 命令直接与文本语料库交互。它采用两阶段训练流程:冷启动数据集构建和 GRPO 微调,在开放域问答基准测试中取得了优异的 F1 和 Exact Match 分数。
EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。
QUEST是一个开放的深度研究智能体家族,使用合成数据和强化学习训练,在多种长周期搜索任务中取得了强劲的性能,接近前沿闭源智能体。
OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型,在多个基准测试(包括 BrowseComp 和 Humanity's Last Exam)上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。
本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上,并引入航点覆盖奖励(Waypoint Coverage Reward)以实现分级部分奖励,从而解决了搜索自博弈(Search Self-Play)中的瓶颈问题。
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。