探索面向模型特化的自主代理数据工程

Hugging Face Daily Papers 2026/05/28 00:00 论文

摘要

本文介绍了自主代理数据工程（Autonomous Agentic Data Engineering）这一任务，其中LLM自主执行端到端的数据整理流水线以实现模型特化，并展示了显著的性能提升（例如，GPT-5.2 将学生模型提升了 57.29%）。

大型语言模型（LLM）在通用任务上表现出色，但往往难以适应缺乏高质量领域特定数据的专业领域。现有的基于LLM的数据整理方法主要依赖人工设计的工作流程，尚未考察LLM能否自主执行端到端的数据工程流水线以实现模型特化。我们正式定义了自主代理数据工程（Autonomous Agentic Data Engineering），这是一个新颖的任务，旨在评估LLM作为自主数据工程师，通过端到端数据整理驱动模型特化的能力。我们将数据视为可优化组件，研究能够跨多个领域规划、生成和迭代优化训练数据的代理，并以后训练性能提升为引导。实验表明，自主LLM数据工程师带来了显著的收益，例如 GPT-5.2 构建的训练课程将学生模型提升了 57.29%，完全通过迭代的代理驱动数据自适应实现。通过揭示其潜力和瓶颈，我们的研究将自主数据工程确立为一种可衡量的能力，并为代理驱动的模型特化指明了方向。代码将发布在 https://github.com/zjunlp/DataAgent..

查看原文

查看缓存全文

缓存时间: 2026/06/01 03:18

论文页面 - 探索用于模型专业化的自主智能体数据工程

来源：https://huggingface.co/papers/2605.30407 作者：

摘要

大型语言模型可以通过迭代数据适应与优化，自主执行端到端的数据工程流水线，以实现模型专业化。

大型语言模型（Large Language Models，LLMs）在通用任务上表现出色，但在没有高质量领域特定数据的情况下，往往难以适应专业领域。现有的基于LLM的数据筛选（data curation）方法主要依赖人工设计的工作流程，尚未深入探究LLM能否自主执行端到端的数据工程流水线（end-to-end data engineering pipeline）以实现模型专业化（model specialization）。我们正式定义了自主智能体数据工程（Autonomous Agentic Data Engineering）这一新任务，旨在评估LLM作为自主数据工程师，通过端到端的数据筛选（data curation）推动模型专业化（model specialization）的能力。我们将数据视为可优化组件，并研究能够跨多个领域规划、生成并迭代优化训练数据的智能体，其优化方向由训练后性能提升（post-training performance improvement）引导。实验表明，自主LLM数据工程师带来了显著收益：GPT-5.2构建的训练课程使学生模型性能提升了57.29%，这完全是通过迭代的、智能体驱动的数据适应（agent-driven data adaptation）实现的。通过揭示潜力与瓶颈，我们的研究将自主数据工程确立为一项可衡量的能力，并为面向智能体驱动的模型专业化（model specialization）指明了道路。代码将在 https://github.com/zjunlp/DataAgent 发布。

查看 arXiv 页面（https://arxiv.org/abs/2605.30407）查看 PDF（https://arxiv.org/pdf/2605.30407）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.30407）

在你的智能体中获取此论文：

hf papers read 2605.30407

没有最新的命令行界面？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.30407 以从此页面链接。

引用此论文的数据集 0

没有数据集链接到此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.30407 以从此页面链接。

引用此论文的 Space 0

没有 Space 链接到此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.30407 以从此页面链接。

包含此论文的收藏集 0

没有收藏集包含此论文

请将此论文添加到收藏集（https://huggingface.co/new-collection）以从此页面链接。

相似文章

GuidedRAG: Semantic Steering of Retrieval-Augmented Generation

arXiv cs.AI

GuidedRAG is a research paper proposing a novel RAG extension that adds a semantics-based selection stage before retrieval, improving retrieval relevance and reducing overhead across diverse RAG variants.

AI 安全优先事项：全领域议程

arXiv cs.AI

本文基于对跨行业领导者的访谈和一次专家研讨会，提出了一项分优先级的全领域议程，以推进 AI 安全。该议程围绕四个主题组织了可操作的优先事项，包括政策框架、公私协调、技术安全工程，以及在对抗性压力下治理智能体 AI。

AgentMap: Joint Equivalence and Subsumption Discovery for Ontology Matching

arXiv cs.AI

This paper introduces Hybrid Ontology Matching (HOM), unifying equivalence and subsumption discovery, and proposes AgentMap, an LLM-based multi-agent framework for joint ontology matching. Experiments show promising results on hybrid, equivalence-only, and subsumption-only settings.

Eco3S: Complex Socio-Economic System Simulation via Agent-Based Models

arXiv cs.AI

Presents Eco3S, a socio-economic system simulation framework that uses LLM-based agents with co-evolving environments, structural causal simulation, and a self-corrective refinement paradigm to replicate and analyze economic phenomena.

GoGoTB：基于规范的覆盖率收敛的智能体RTL验证

arXiv cs.AI

GoGoTB 是一个用于端到端 RTL 验证的智能体框架，实现了基于规范的覆盖率收敛，在无需人工干预的情况下在 8 个设计上达到高覆盖率。

论文页面 - 探索用于模型专业化的自主智能体数据工程

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

GuidedRAG: Semantic Steering of Retrieval-Augmented Generation

AI 安全优先事项：全领域议程

AgentMap: Joint Equivalence and Subsumption Discovery for Ontology Matching

Eco3S: Complex Socio-Economic System Simulation via Agent-Based Models

GoGoTB：基于规范的覆盖率收敛的智能体RTL验证

提交意见反馈