OpenThoughts-Agent: 面向智能体模型的数据配方

Hugging Face Daily Papers 论文

摘要

本文介绍了OpenThoughts-Agent,一个开源的用于训练智能体语言模型的数据整理流程,在七项基准测试中取得了44.8%的平均准确率,并通过系统性实验超越了先前的开源数据集。

智能体语言模型极大地扩展了人工智能的应用范围,但关于如何为具备广泛能力的智能体整理训练数据,目前公开信息甚少。现有的开源工作,如SWE-Smith、SERA和Nemotron-Terminal,通常针对单一基准测试,这引发了如何训练能泛化于多种智能体任务的模型的问题。OpenThoughts-Agent (OT-Agent) 项目通过一个完全开源的数据整理流程来解决这一差距,用于训练智能体模型。我们进行了超过100次受控消融实验,系统性地研究流程的每个阶段,从而获得了关于任务来源和多样性的重要见解。随后,我们从流程中整理出包含10万样本的训练集,并在该数据集上微调Qwen3-32B,在七项智能体基准测试中取得了44.8%的平均准确率,比现有最强的开源数据智能体模型(Nemotron-Terminal-32B,40.9%)提升了3.9个百分点。此外,我们的训练数据展现出强大的扩展性,在计算量受控的比较中,在每个训练集规模下均优于其他开源数据集。我们已在openthoughts.ai上公开发布我们的训练集、数据流程、实验数据和模型,以支持未来关于智能体模型训练的开源研究。
查看原文
查看缓存全文

缓存时间: 2026/06/24 05:47

Paper page - OpenThoughts-Agent: 用于智能体模型的数据配方

来源:https://huggingface.co/papers/2606.24855 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

本文提出了一种用于训练智能体语言模型的开源数据策划管道,通过系统实验和可扩展训练数据展示了优越性能。

智能体语言模型(https://huggingface.co/papers?q=Agentic%20language%20models)极大地拓展了AI的应用范围,但关于如何为通用型智能体策划训练数据(https://huggingface.co/papers?q=training%20data),目前公开所知甚少。现有的开源工作如SWE-Smith、SERA和Nemotron-Terminal通常仅针对单一基准,未能解决如何训练模型以泛化到多样化智能体任务的问题。OpenThoughts-Agent(OT-Agent)项目通过一个完全开放的数据策划管道(https://huggingface.co/papers?q=data%20curation%20pipeline)填补了这一空白,用于训练智能体模型。我们进行了超过100项受控消融实验(https://huggingface.co/papers?q=controlled%20ablation%20experiments),系统性地研究了管道的每个阶段,得出了关于任务来源和多样性的重要见解。随后,我们从管道中组装了一个包含10万条样本的训练集,并在该数据集上微调(https://huggingface.co/papers?q=fine-tune)Qwen3-32B模型,在七个智能体基准(https://huggingface.co/papers?q=benchmarks)上取得了44.8%的平均准确率,比现有最强的开源数据智能体模型(Nemotron-Terminal-32B,40.9%)高出3.9个百分点。此外,我们的训练数据(https://huggingface.co/papers?q=training%20data)展现出强大的缩放特性(https://huggingface.co/papers?q=scaling%20properties),在计算量受控的比较中,无论训练集大小如何,均优于其他开源数据集。我们已在openthoughts.ai上公开发布了训练集、数据管道、实验数据和模型,以支持未来关于智能体模型训练的开源研究。

查看 arXiv 页面 (https://arxiv.org/abs/2606.24855)查看 PDF (https://arxiv.org/pdf/2606.24855)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24855)

在你的智能体中获取此论文:

hf papers read 2606.24855

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.24855 以从本页链接到它。

引用此论文的数据集0

暂无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.24855 以从本页链接到它。

引用此论文的 Spaces0

暂无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.24855 以从本页链接到它。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接到它。

相似文章

科学领域的代理型AI实验

arXiv cs.AI

本文介绍了两个代理型AI框架:DeepTS/DeepCollector和DeepScribe,它们利用混合本地-云端架构和大语言模型,自动化科学工作流程,包括时间序列数据整理以及将物理讲座转化为结构化报告。