探索面向模型特化的自主代理数据工程

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

本文介绍了自主代理数据工程（Autonomous Agentic Data Engineering）这一任务，其中LLM自主执行端到端的数据整理流水线以实现模型特化，并展示了显著的性能提升（例如，GPT-5.2 将学生模型提升了 57.29%）。

大型语言模型（LLM）在通用任务上表现出色，但往往难以适应缺乏高质量领域特定数据的专业领域。现有的基于LLM的数据整理方法主要依赖人工设计的工作流程，尚未考察LLM能否自主执行端到端的数据工程流水线以实现模型特化。我们正式定义了自主代理数据工程（Autonomous Agentic Data Engineering），这是一个新颖的任务，旨在评估LLM作为自主数据工程师，通过端到端数据整理驱动模型特化的能力。我们将数据视为可优化组件，研究能够跨多个领域规划、生成和迭代优化训练数据的代理，并以后训练性能提升为引导。实验表明，自主LLM数据工程师带来了显著的收益，例如 GPT-5.2 构建的训练课程将学生模型提升了 57.29%，完全通过迭代的代理驱动数据自适应实现。通过揭示其潜力和瓶颈，我们的研究将自主数据工程确立为一种可衡量的能力，并为代理驱动的模型特化指明了方向。代码将发布在 https://github.com/zjunlp/DataAgent..

查看原文

查看缓存全文

缓存时间: 2026/06/01 03:18

论文页面 - 探索用于模型专业化的自主智能体数据工程

来源：https://huggingface.co/papers/2605.30407 作者：

摘要

大型语言模型可以通过迭代数据适应与优化，自主执行端到端的数据工程流水线，以实现模型专业化。

大型语言模型（Large Language Models，LLMs）在通用任务上表现出色，但在没有高质量领域特定数据的情况下，往往难以适应专业领域。现有的基于LLM的数据筛选（data curation）方法主要依赖人工设计的工作流程，尚未深入探究LLM能否自主执行端到端的数据工程流水线（end-to-end data engineering pipeline）以实现模型专业化（model specialization）。我们正式定义了自主智能体数据工程（Autonomous Agentic Data Engineering）这一新任务，旨在评估LLM作为自主数据工程师，通过端到端的数据筛选（data curation）推动模型专业化（model specialization）的能力。我们将数据视为可优化组件，并研究能够跨多个领域规划、生成并迭代优化训练数据的智能体，其优化方向由训练后性能提升（post-training performance improvement）引导。实验表明，自主LLM数据工程师带来了显著收益：GPT-5.2构建的训练课程使学生模型性能提升了57.29%，这完全是通过迭代的、智能体驱动的数据适应（agent-driven data adaptation）实现的。通过揭示潜力与瓶颈，我们的研究将自主数据工程确立为一项可衡量的能力，并为面向智能体驱动的模型专业化（model specialization）指明了道路。代码将在 https://github.com/zjunlp/DataAgent 发布。

查看 arXiv 页面（https://arxiv.org/abs/2605.30407）查看 PDF（https://arxiv.org/pdf/2605.30407）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.30407）

在你的智能体中获取此论文：

hf papers read 2605.30407

没有最新的命令行界面？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.30407 以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.30407 以从此页面链接。

引用此论文的 Space 0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.30407 以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

探索面向模型特化的自主代理数据工程

论文页面 - 探索用于模型专业化的自主智能体数据工程

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

@freeCodeCamp: 生产级ETL管道需要保持可靠运行，即使数据混乱或API失败。在本手册中，Brookly…

@Docker: 信任与安全是智能体时代成功的基石。没有哪家公司能独自构建这一基石…

使用智能体集群在两天内清理并迁移400张混乱的遗留表

极高的解码速度（tok/s）真的有用吗？

Meta称AI让构建新应用变得更简单——更多应用即将推出

提交意见反馈