QUEST:通过全合成任务训练前沿深度研究智能体

Hugging Face Daily Papers 论文

摘要

QUEST是一个开放的深度研究智能体家族,使用合成数据和强化学习训练,在多种长周期搜索任务中取得了强劲的性能,接近前沿闭源智能体。

深度研究智能体将搜索引擎的角色从检索关键词匹配页面扩展到知识综合,从根本上改变了人类与信息的交互方式。然而,前沿系统仍是专有的,而现有的开放智能体通常在不同任务类型上泛化能力较差,尚不清楚如何训练一个广泛适用的深度研究智能体。我们发布了QUEST,一个开放模型家族(参数量从2B到35B),作为通用深度研究智能体,旨在处理各种长周期搜索任务,在事实查找、引文溯源和报告综合方面具有强大能力。为了构建QUEST,我们提出了一种有效的训练方案,结合了中期训练、监督微调和强化学习。该方案的核心是一个基于统一评分树(rubric trees)的精心设计的数据合成流程,适用于不同任务类型,并且能够在无需人工标注的情况下合成具有可验证奖励的训练数据。此外,QUEST还内置了上下文管理机制,能够实现有效的长周期推理和知识综合。仅使用8K个合成任务,QUEST就在八个涵盖多种任务类型的深度研究基准测试中接近甚至超越了前沿闭源智能体,并在近期开放权重智能体中取得了最佳整体性能。我们发布了所有内容:模型、数据和训练脚本。
查看原文
查看缓存全文

缓存时间: 2026/05/26 06:42

论文页面 - QUEST: 使用完全合成任务训练前沿深度研究智能体

来源:https://huggingface.co/papers/2605.24218 作者:

摘要

QUEST 是一个开放家族的深度研究智能体,使用合成数据和强化学习进行训练,能够在多样化的长 horizon 搜索任务中表现良好。

深度研究智能体将搜索引擎的角色从检索关键词匹配页面扩展到知识综合,从根本上改变了人类与信息互动的方式。然而,前沿系统仍为专有,而现有的开放智能体通常在不同任务类型上泛化能力较差,这导致如何训练一个广泛适用的深度研究智能体仍不明确。我们发布 QUEST,一个开放模型家族(参数规模从 2B 到 35B),作为通用深度研究智能体,旨在处理广泛的长 horizon 搜索任务,在事实查找、引用归因和报告综合方面具有强大能力。为构建 QUEST,我们提出了一种有效的训练配方,结合了中期训练、监督微调 (https://huggingface.co/papers?q=supervised%20fine-tuning) 和强化学习 (https://huggingface.co/papers?q=reinforcement%20learning)。该配方的核心是一个基于统一评分规则树 (https://huggingface.co/papers?q=rubric%20trees) 的精心策划的数据合成流水线 (https://huggingface.co/papers?q=data%20synthesis%20pipeline),该方法适用于不同任务类型,并能合成带有可验证奖励的训练数据,无需人工标注。此外,QUEST 还集成了内置的上下文管理机制 (https://huggingface.co/papers?q=context%20management%20mechanism),实现了有效的长 horizon 推理 (https://huggingface.co/papers?q=long-horizon%20reasoning) 和知识综合 (https://huggingface.co/papers?q=knowledge%20synthesis)。仅使用 8K 个合成任务,QUEST 在涵盖多种任务类型的八个深度研究基准上接近甚至超越了前沿的闭源智能体,并在最近的开放权重智能体中取得了最佳总体性能。我们发布了所有内容:模型、数据和训练脚本。

查看 arXiv 页面 (https://arxiv.org/abs/2605.24218)查看 PDF (https://arxiv.org/pdf/2605.24218)项目页面 (https://osu-nlp-group.github.io/QUEST/)GitHub10 (https://github.com/OSU-NLP-Group/QUEST)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.24218)

引用本论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.24218,以便从此页面链接。

引用本论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.24218,以便从此页面链接。

引用本论文的 Spaces1

包含本论文的集合1

相似文章