QUEST:通过全合成任务训练前沿深度研究智能体
摘要
QUEST是一个开放的深度研究智能体家族,使用合成数据和强化学习训练,在多种长周期搜索任务中取得了强劲的性能,接近前沿闭源智能体。
查看缓存全文
缓存时间: 2026/05/26 06:42
论文页面 - QUEST: 使用完全合成任务训练前沿深度研究智能体
来源:https://huggingface.co/papers/2605.24218 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
QUEST 是一个开放家族的深度研究智能体,使用合成数据和强化学习进行训练,能够在多样化的长 horizon 搜索任务中表现良好。
深度研究智能体将搜索引擎的角色从检索关键词匹配页面扩展到知识综合,从根本上改变了人类与信息互动的方式。然而,前沿系统仍为专有,而现有的开放智能体通常在不同任务类型上泛化能力较差,这导致如何训练一个广泛适用的深度研究智能体仍不明确。我们发布 QUEST,一个开放模型家族(参数规模从 2B 到 35B),作为通用深度研究智能体,旨在处理广泛的长 horizon 搜索任务,在事实查找、引用归因和报告综合方面具有强大能力。为构建 QUEST,我们提出了一种有效的训练配方,结合了中期训练、监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 和强化学习 (https://huggingface.co/papers?q=reinforcement%20learning)。该配方的核心是一个基于统一评分规则树 (https://huggingface.co/papers?q=rubric%20trees) 的精心策划的数据合成流水线 (https://huggingface.co/papers?q=data%20synthesis%20pipeline),该方法适用于不同任务类型,并能合成带有可验证奖励的训练数据,无需人工标注。此外,QUEST 还集成了内置的上下文管理机制 (https://huggingface.co/papers?q=context%20management%20mechanism),实现了有效的长 horizon 推理 (https://huggingface.co/papers?q=long-horizon%20reasoning) 和知识综合 (https://huggingface.co/papers?q=knowledge%20synthesis)。仅使用 8K 个合成任务,QUEST 在涵盖多种任务类型的八个深度研究基准上接近甚至超越了前沿的闭源智能体,并在最近的开放权重智能体中取得了最佳总体性能。我们发布了所有内容:模型、数据和训练脚本。
查看 arXiv 页面 (https://arxiv.org/abs/2605.24218)查看 PDF (https://arxiv.org/pdf/2605.24218)项目页面 (https://osu-nlp-group.github.io/QUEST/)GitHub10 (https://github.com/OSU-NLP-Group/QUEST)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.24218)
引用本论文的模型0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.24218,以便从此页面链接。
引用本论文的数据集0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.24218,以便从此页面链接。
引用本论文的 Spaces1
包含本论文的集合1
相似文章
FORT-Searcher: 合成抗捷径搜索任务用于训练深度搜索智能体
FORT-Searcher 提出了一种框架,通过识别和缓解四种捷径风险,为深度搜索智能体合成抗捷径的训练数据。由此产生的智能体经过监督微调训练,在可比较的开源搜索智能体中取得了最先进的性能。
@SergioPaniego:前沿智能体之所以如此出色,部分原因是模型在与其一同交付的同一框架内进行了训练。很高兴看到这…
Sergio Paniego 强调,前沿智能体的性能得益于模型在其部署框架内进行训练。NVIDIA AI 的新工作“Polar: Agentic RL on Any Harness at Scale”能够将 Codex、Claude Code、Qwen Code 或 Pi 等框架转化为强化学习训练环境,而无需修改其内部结构。
@tom_doerr: 完全开源 30B 规模搜索智能体的训练数据 https://github.com/PolarSeeker/OpenSeeker…
OpenSeeker 完全开源了基于 ReAct 框架的 30B 规模搜索智能体的训练数据与模型,在多个基准测试(包括 BrowseComp 和 Humanity's Last Exam)上达到了最先进的性能。这是首个在前沿搜索基准上达到顶尖水平并同时公开完整训练数据的纯学术项目。
@tom_doerr: 从知识图谱训练深度搜索代理 https://github.com/THUDM/DeepDive
DeepDive 提出了一种自动化方法,利用知识图谱进行数据合成和多轮强化学习,训练深度搜索代理,从而实现复杂的多步推理和网页浏览。
DR-Venus:仅用1万开源数据打造边缘级前沿深度研究智能体
DR-Venus-4B 是一个40亿参数的深研智能体,仅利用1万条开源样本,通过「智能体SFT+回合级奖励RL」训练,在多项研究基准上超越以往90亿以下模型,逼近300亿级系统,且可部署于边缘设备。