OpenThoughts-Agent: 面向智能体模型的数据配方
摘要
本文介绍了OpenThoughts-Agent,一个开源的用于训练智能体语言模型的数据整理流程,在七项基准测试中取得了44.8%的平均准确率,并通过系统性实验超越了先前的开源数据集。
查看缓存全文
缓存时间: 2026/06/24 05:47
Paper page - OpenThoughts-Agent: 用于智能体模型的数据配方
来源:https://huggingface.co/papers/2606.24855 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
本文提出了一种用于训练智能体语言模型的开源数据策划管道,通过系统实验和可扩展训练数据展示了优越性能。
智能体语言模型(https://huggingface.co/papers?q=Agentic%20language%20models)极大地拓展了AI的应用范围,但关于如何为通用型智能体策划训练数据(https://huggingface.co/papers?q=training%20data),目前公开所知甚少。现有的开源工作如SWE-Smith、SERA和Nemotron-Terminal通常仅针对单一基准,未能解决如何训练模型以泛化到多样化智能体任务的问题。OpenThoughts-Agent(OT-Agent)项目通过一个完全开放的数据策划管道(https://huggingface.co/papers?q=data%20curation%20pipeline)填补了这一空白,用于训练智能体模型。我们进行了超过100项受控消融实验(https://huggingface.co/papers?q=controlled%20ablation%20experiments),系统性地研究了管道的每个阶段,得出了关于任务来源和多样性的重要见解。随后,我们从管道中组装了一个包含10万条样本的训练集,并在该数据集上微调(https://huggingface.co/papers?q=fine-tune)Qwen3-32B模型,在七个智能体基准(https://huggingface.co/papers?q=benchmarks)上取得了44.8%的平均准确率,比现有最强的开源数据智能体模型(Nemotron-Terminal-32B,40.9%)高出3.9个百分点。此外,我们的训练数据(https://huggingface.co/papers?q=training%20data)展现出强大的缩放特性(https://huggingface.co/papers?q=scaling%20properties),在计算量受控的比较中,无论训练集大小如何,均优于其他开源数据集。我们已在openthoughts.ai上公开发布了训练集、数据管道、实验数据和模型,以支持未来关于智能体模型训练的开源研究。
查看 arXiv 页面 (https://arxiv.org/abs/2606.24855)查看 PDF (https://arxiv.org/pdf/2606.24855)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.24855)
在你的智能体中获取此论文:
hf papers read 2606.24855
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.24855 以从本页链接到它。
引用此论文的数据集0
暂无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.24855 以从本页链接到它。
引用此论文的 Spaces0
暂无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.24855 以从本页链接到它。
包含此论文的收藏集0
暂无收藏集包含此论文
请将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从本页链接到它。
相似文章
它是否具备足够的代理能力?使用你自己的工具对开放模型进行基准测试
这篇博客文章介绍了一种基准测试方法,用于评估开放模型在代理编程任务上的表现,不仅关注准确性,还关注代理过程的效率。它提供了一个使用 pi coding agent 的可定制工具框架,并在不同模型和库版本上进行测试。
神经数据不再无聊:代理型AI在数据复用中的基准测试
本文对代理型AI系统在加载、理解和重新格式化碎片化的神经科学数据任务上进行基准测试,发现尽管代理在子任务上表现良好,但很少能实现完全无错误的端到端解决方案,人工监督仍然必要。
@omarsar0:Karpathy 的 autoresearch 仓库掀起一股新风潮,智能体已能训练 AI 模型打造 SoTA 智能体系统……
Karpathy 的 autoresearch 项目引发潮流:智能体训练 AI 模型构建最先进的智能体系统,同时暴露当前 LLM 在假设生成上的短板。
OpenSearch-VL:一种用于前沿多模态搜索智能体的开源训练配方
OpenSearch-VL 是一个开源框架及论文,介绍了一种利用强化学习训练前沿多模态搜索智能体的方法,其中包含专用的数据筛选流程以及一种新颖的训练算法。
科学领域的代理型AI实验
本文介绍了两个代理型AI框架:DeepTS/DeepCollector和DeepScribe,它们利用混合本地-云端架构和大语言模型,自动化科学工作流程,包括时间序列数据整理以及将物理讲座转化为结构化报告。