search-agents

标签

Cards List
#search-agents

DailyReport:一个用于评估日常搜索任务中搜索代理的开放式基准

arXiv cs.AI · 2026-06-12 缓存

DailyReport 是一个开放式基准,用于评估搜索代理在日常生活搜索任务中的表现,包含150个任务和3,546条评分标准,可实现可解释的、以用户为中心的评估。

0 人收藏 0 人点赞
#search-agents

EvoBrowseComp:面向演进知识的搜索代理基准测试

arXiv cs.CL · 2026-06-12 缓存

本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。

0 人收藏 0 人点赞
#search-agents

LoHoSearch:超越人类难度上限的长时域搜索智能体基准

arXiv cs.CL · 2026-06-12 缓存

LoHoSearch是一个用于评估长时域搜索智能体的新基准,基于包含700万维基百科实体的知识图谱构建。它引入了具有大搜索空间和结构复杂性的问题,以超越人类编写的难度上限,并显示出最佳模型仅达到34.74%的准确率。

0 人收藏 0 人点赞
#search-agents

EvoBrowseComp:面向演进知识的搜索智能体基准测试

Hugging Face Daily Papers · 2026-06-11 缓存

EvoBrowseComp是一个演进式基准测试集,包含800个无污染的问题,用于评估搜索智能体,旨在通过三智能体框架防止参数记忆并保持时间新鲜度。

0 人收藏 0 人点赞
#search-agents

FORT-Searcher: 合成抗捷径搜索任务用于训练深度搜索智能体

Hugging Face Daily Papers · 2026-06-10 缓存

FORT-Searcher 提出了一种框架,通过识别和缓解四种捷径风险,为深度搜索智能体合成抗捷径的训练数据。由此产生的智能体经过监督微调训练,在可比较的开源搜索智能体中取得了最先进的性能。

0 人收藏 0 人点赞
#search-agents

@patpcj:再次感谢您对我们工作的兴趣!链接在此,以免被“显示更多”埋没:论文:https://arxi…

X AI KOLs Following · 2026-06-08 缓存

Harness-1 是一个 20B 参数规模的搜索代理,通过使用有状态搜索线索的强化学习进行训练,在检索基准测试中取得了强劲结果,并优于其他开源搜索子代理。

0 人收藏 0 人点赞
#search-agents

ARBOR:通过可复用评分缓存为搜索代理提供在线过程奖励

arXiv cs.CL · 2026-06-03 缓存

ARBOR 引入了一种可复用的评分缓存,为基于LLM的搜索代理提供在线过程奖励,在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO,将多达42%的零梯度训练组转化为信息丰富的训练组。

0 人收藏 0 人点赞
#search-agents

@dair_ai: // 状态外部化框架 // 关于如何有效构建代理和框架的一种新范式正在兴起。如果……

X AI KOLs Following · 2026-06-02 缓存

Harness-1 引入了一种状态外部化框架,将常规记账与搜索代理中的策略决策分离,使一个 20B 模型在多个基准测试中超越更大的前沿搜索器。

0 人收藏 0 人点赞
#search-agents

COMPASS:面向安全搜索智能体的认知MCTS引导过程对齐

arXiv cs.AI · 2026-06-01 缓存

提出了COMPASS,一种认知MCTS引导的过程对齐框架,通过合成攻击轨迹并隔离风险动作来增强LLM驱动的搜索智能体的安全性,在更少的训练数据下实现了良好的安全-效用权衡。

0 人收藏 0 人点赞
#search-agents

Harness-1:采用状态外化约束的搜索代理强化学习

Hugging Face Daily Papers · 2026-06-01 缓存

介绍了 Harness-1,一个使用状态外化约束训练的 200 亿参数开源搜索代理,实现了强大的检索性能,并在多个基准测试上超越了更大的前沿模型。

0 人收藏 0 人点赞
#search-agents

GrepSeek:训练直接语料交互的搜索代理

arXiv cs.CL · 2026-05-29 缓存

GrepSeek 训练大型语言模型搜索代理,使其能够通过使用 grep 等 shell 命令直接与文本语料库交互。它采用两阶段训练流程:冷启动数据集构建和 GRPO 微调,在开放域问答基准测试中取得了优异的 F1 和 Exact Match 分数。

0 人收藏 0 人点赞
#search-agents

EVE-Agent: 可验证证据的自我进化智能体

arXiv cs.AI · 2026-05-25 缓存

EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。

0 人收藏 0 人点赞
#search-agents

QUEST:通过全合成任务训练前沿深度研究智能体

Hugging Face Daily Papers · 2026-05-22 缓存

QUEST是一个开放的深度研究智能体家族,使用合成数据和强化学习训练,在多种长周期搜索任务中取得了强劲的性能,接近前沿闭源智能体。

0 人收藏 0 人点赞
#search-agents

@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…

X AI KOLs Timeline · 2026-05-09 缓存

OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型,在多个基准测试(包括 BrowseComp 和 Humanity's Last Exam)上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。

1 人收藏 1 人点赞
#search-agents

利用知识图谱路径作为自进化搜索代理的中间监督

arXiv cs.AI · 2026-05-08 缓存

本文介绍了一种利用知识图谱路径作为中间监督来提升自进化搜索代理性能的方法。该方法通过将问题构建建立在关系上下文之上,并引入航点覆盖奖励(Waypoint Coverage Reward)以实现分级部分奖励,从而解决了搜索自博弈(Search Self-Play)中的瓶颈问题。

0 人收藏 0 人点赞
#search-agents

OpenSearch-VL:一种用于前沿多模态搜索智能体的开源训练配方

Hugging Face Daily Papers · 2026-05-06 缓存

OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈