探索用于模型特化的自主代理数据工程

arXiv cs.CL 2026/06/01 04:00 论文

data-engineering model-specialization llm-agents autonomous fine-tuning iterative-optimization

摘要

本文形式化了自主代理数据工程，其中LLMs作为自主数据工程师，为特定领域策划和优化训练数据，使用GPT-5.2使学生模型性能提升了57.29%。

arXiv:2605.30407v1 公告类型：新摘要：大型语言模型（LLMs）在通用任务上表现出色，但往往难以适应缺乏高质量领域特定数据的专业领域。现有的基于LLM的数据策展方法主要依赖人工设计的流程，尚未检验LLM能否自主执行端到端的数据工程管道以实现模型特化。我们形式化了\textbf{自主代理数据工程}，这是一个新的任务，旨在评估LLM作为自主数据工程师，通过端到端数据策展驱动模型特化。我们将数据视为可优化组件，并研究能够跨多个领域规划、生成和迭代优化训练数据的代理，以训练后性能提升为指导。实验表明，自主LLM数据工程师带来了显著的增益：GPT-5.2构建了一个训练课程，使学生模型性能提高了\textbf{57.29\%}，完全通过迭代的、代理驱动的数据适应。通过揭示潜力和瓶颈，我们的研究将自主数据工程确立为一种可衡量的能力，并开辟了代理驱动的模型特化之路\footnote{代码将发布在 https://github.com/zjunlp/DataAgent.}

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:22

# 探索面向模型专业化的自主代理式数据工程  
来源：https://arxiv.org/html/2605.30407  

Yujie Luo♠♡, Xiangyuan Ru♠¹, Jingsheng Zheng♠, Jingjing Wang♠, Yuqi Zhu♠, Jintian Zhang♠, Runnan Fang♠, Kewei Xu♠, Ye Liu♡, Zheng Wei♡, Jiang Bian♡, Zang Li♡, Shumin Deng♠†  
♠浙江大学 ♡腾讯平台与内容事业群  
\{luo.yj,231sm\}@zju.edu.cn  

###### 摘要  

大型语言模型（LLM）在通用任务上表现出色，但在缺乏高质量领域特定数据的情况下，往往难以适应专业领域。现有的基于LLM的数据整理方法主要依赖人工设计的工作流程，尚未考察LLM能否自主执行端到端的数据工程管线以实现模型专业化。我们正式定义了**自主代理式数据工程**（Autonomous Agentic Data Engineering）这一新任务，旨在评估LLM作为自主数据工程师，通过端到端的数据整理驱动模型专业化的能力。我们将数据视为可优化的组件，研究代理如何在多个领域中规划、生成并迭代优化训练数据，以训练后性能提升为导向。实验表明，自主LLM数据工程师带来了显著提升：GPT-5.2构建的训练课程使学生模型平均提升57.29%，完全通过迭代的、代理驱动的数据自适应实现。通过揭示潜力与瓶颈，我们的研究将自主数据工程确立为一种可衡量的能力，并为代理驱动的模型专业化指明了路径¹。  

¹代码将在 https://github.com/zjunlp/DataAgent 发布。  

## 1 引言  

近年来，大型语言模型（LLM）通过在大量数据上训练而涌现出了新兴能力 (Guha et al. 2025; Zhou et al. 2025)。尽管在通用任务上表现强劲，但当训练数据未能充分反映专业下游任务时，即使最先进的LLM也往往难以适应 (Li et al. 2024; Mishra et al. 2022)。将通用模型适配到目标专业领域通常需要在领域特定的指令数据上进行后期训练，例如精心整理的数据集 (Zhang et al. 2024; Yang et al. 2023)。鉴于数据处理的复杂性以及高质量领域数据的稀缺性，研究人员越来越多地转向基于LLM的方法 (Qiao et al. 2024; Liang et al. 2025)，在人工设计的工作流程中利用LLM作为数据生成器。由于将这些手工定制的配方适配到新领域需要大量配置，现代LLM代理凭借其在复杂推理 (DeepSeek-AI 2025)、代码生成 (Ni et al. 2023; Hong et al. 2024) 和工具使用 (Qin et al. 2024) 方面的显著进步，提供了更有前景的替代方案。这些进展进一步引出一个自然的问题：**LLM代理能否自主执行端到端的数据工程以实现模型专业化？**  

图1：**代理式数据工程**范式。LLM数据工程师独立执行完整的数据整理循环，以驱动模型专业化，根据训练后学生模型性能反馈迭代优化数据。  

为了探究这个问题，我们正式定义了**自主代理式数据工程**任务（图1），其中LLM被要求独立完成整个训练数据整理管线，包括策略规划、领域规范、提示设计、数据合成、数据验证以及迭代数据优化。通过固定用于数据合成的教师模型和用于数据训练的学生模型，我们分离出LLM的端到端数据工程能力，并最终通过学生模型训练后的性能提升来评估。我们在三个专业领域（科学、代码、金融）中对主流LLM的性能进行了全面分析。我们在单次完成代理设置（一次生成）和闭环自优化代理设置（迭代代理）下评估LLM能力，包括从零开始和给定初始种子数据两种情况。实验表明，现代LLM代理具备显著的数据工程能力，即使从零开始也能推断缺失的监督信号并合成任务对齐的实例。值得注意的是，GPT-5.2通过迭代优化实现了平均相对性能增益**57.29%**，超越了人工设计的数据合成管线。尽管有这些令人鼓舞的发现，我们也识别出显著的失败模式，表明LLM在可靠质量保证方面仍缺乏稳健的生成后机制。总体而言，我们总结贡献如下：  

- • 我们正式定义了**代理式数据工程**任务，这是一种自主范式，其中LLM独立管理整个训练数据整理生命周期。这为将端到端数据工程作为LLM代理的可衡量能力进行研究提供了一个受控环境。  
- • 我们开发了一个端到端的执行与评估环境，涵盖模型专业化的完整数据整理管线，支持隔离且预算受控的代理执行，以及外部反馈和基于性能的评估协议。  
- • 我们实例化了两种代表性设置：**一次生成**和**迭代代理**，并在多个领域评估了主流LLM。我们进一步分析了迭代优化、数据质量和面向专业化的失败模式。  

## 2 代理式数据工程  

图2：我们研究的整体框架。(a) 环境：涵盖领域概览、包含任务设置和过程反馈的代理输入，以及最终评估方法。(b) 代理工作流：代理制定数据整理策略并输出 `submission.json` 以实现专业化的示例工作流。在 (ii) 一次生成设置中，提交文件一次性生成；而在 (i) 迭代代理设置中，代理根据反馈迭代改进其数据整理策略并报告最佳提交。  

### 2.1 问题形式化  

我们将**代理式数据工程**（图1）形式化为一个端到端闭环范式，其中LLM代理 $\mathcal{A}$ 自主整理训练数据，以专业化一个**固定的**学生模型 $\mathcal{M}_S$，并利用一个**固定的**教师模型 $\mathcal{M}_T$ 进行数据合成。对于目标任务 $\mathcal{T}$，代理设计一个数据整理程序 $\mathcal{P}_{\mathcal{A}}$，该程序调用 $\mathcal{M}_T$ 来合成候选数据集：  

$$\widehat{\mathcal{D}} = \mathcal{P}_{\mathcal{A}}(\mathcal{T}; \mathcal{M}_T). \tag{1}$$

学生模型随后通过监督微调（记为 $\mathrm{Spec}(\cdot)$）在 $\widehat{\mathcal{D}}$ 上专业化，并由一个基于规则的确定性评估器 $\mathcal{E}$ 打分，产生环境反馈信号：  

$$f = \mathcal{E}(\mathrm{Spec}(\mathcal{M}_S, \widehat{\mathcal{D}})). \tag{2}$$

给定合成数据 $\widehat{\mathcal{D}}$ 和反馈信号 $f$，整个代理式数据工程过程可视为一个闭环目标，其中代理 $\mathcal{A}$ 在整理策略空间中搜索，以最大化学生训练后的性能：  

$$\mathcal{P}_{\mathcal{A}}^\star = \arg\max_{\mathcal{P}_{\mathcal{A}}} \mathcal{E}\!\left( \mathrm{Spec}\!\left( \mathcal{M}_S, \mathcal{P}_{\mathcal{A}}(\mathcal{T}; \mathcal{M}_T) \right) \right). \tag{3}$$

在此形式化下，$\mathcal{M}_T$ 和 $\mathcal{M}_S$ 在各个任务中都保持固定，从而能够受控地分析代理驱动的数据整理对学生模型专业化的贡献。  

### 2.2 任务协议  

##### 任务输入  
如图2(a)所示，每个任务中代理会获得：(1) 评估设置的简要介绍；(2) 目标数据集的基本概述，包括数据集描述、提交格式、可选的种子池以及用于验证的公开测试集；(3) 代理可使用的教师模型API调用固定预算；(4) 用于领域专业化的固定学生模型，以及相应的标准化微调与推理参数²。  

²默认情况下，我们采用 Qwen3-30B-A3B 作为教师模型，LLaMA-3.1-8B-Instruct 作为学生模型。  

##### 任务输出  
代理需要生产训练数据 $\widehat{\mathcal{D}}$ 作为一个 `submission.json` 文件，该文件符合要求的格式。提交文件必须由代理生成的代码产生，所有实例均通过教师模型API调用生成，而非直接写入文件。  

##### 任务评估  
我们通过学生模型端到端性能的提升来评估代理。具体地，学生模型在提交数据 $\widehat{\mathcal{D}}$ 上微调，然后在隐藏的私有测试集上评估。由此产生的私有测试集性能增益（第3.1节）作为代理端到端数据工程能力的衡量指标。  

##### 任务环境  
我们的运行环境对教师模型API调用次数和挂钟时间施加固定预算，并提供标准化的教师API调用、学生模型微调和公开集评估接口，详见附录D。在此设置下，代理通过代码生成实现数据整理逻辑，从而专注于数据工程任务本身。  

### 2.3 数据集准备  

我们从三个代表性领域（科学、代码、金融）收集QA推理任务，评估代理如何通过自主数据工程在每个领域内进行适配与改进。  

##### 数据集选择  
我们选择满足以下条件的任务领域：(i) **专业任务**：通用预训练未充分覆盖，需要通过针对性专业化释放模型潜力；(ii) **直接评估**：允许确定性规则打分作为环境反馈，无需执行环境或LLM评判；(iii) **广泛推理模式**：覆盖代表性领域。基于这些标准，我们采用 SciBench (Wang et al., 2024b)、LiveCodeBench (Jain et al., 2025) 的测试输出预测 (LCB-TOP) 和 FinanceReasoning (Tang et al., 2025) 作为最终评估数据集。  

##### 数据集标准化  
我们从官方文档提取任务描述，并重新设计原始评估逻辑，使其完全基于规则（去除主观或LLM判断成分）。此外，我们为每个任务提供标准化的示例提交文件，定义生成训练数据的所需格式。最终，我们将每个任务标准化为：  

- • **数据集描述**：数据集概述、组件说明和数据示例。  
- • **评估脚本**：从回答中提取答案并计算数据集得分的脚本。  
- • **种子数据**：用于领域专业化的标准化原始材料，代理对该数据的可见性取决于实验设置。  
- • **公开测试集**：在迭代优化过程中用于过程反馈的可见数据划分。  
- • **私有测试集**：仅用于最终性能评估的隐藏数据划分。  
- • **示例提交**：所需的任务特定数据生成格式。  

##### 数据集划分  
对于种子数据构建，我们为每个任务固定1000个实例的预算，并确保所有种子仅包含原始问题和相关上下文，不包含参考答案（示例见附录H）。具体地，对于**科学**任务，我们从 SciInstruct (Zhang et al., 2024) 中筛选出具有确定性数值答案的实例，然后采用数据选择策略保证质量。对于**代码**任务，我们通过分层抽样从 LiveCodeBench v1–v6 版本中抽取种子，并额外从 TACO (Li et al., 2023) 中通过分层抽样增强。对于**金融**任务，由于相关资源有限，我们从 FinanceReasoning 中采样一半作为种子数据。然后从 SciBench、LCB-TOP 和 FinanceReasoning 的剩余部分构建公开和私有划分。最终公开测试集与私有测试集比例为1:3。在整个种子构建和测试集划分过程中，我们严格执行**分层抽样**，并严格确保问题和上下文**零重叠**，防止数据泄露。  

### 2.4 自动数据工程代理  

我们在两种代表性场景下研究代理式数据工程：单次完成设置（一次生成）和闭环自优化设置（迭代代理），两者均在图2(b)中展示。  

##### 一次生成  
在此设置中，代理一次性生成最终提交。我们向代理提供包含必要任务输入的综合提示。代理随后制定策略计划，通过 `code.py` 实现，并生成 `submission.json`（图2(b-ii)）。我们允许最多8次独立尝试以缓解生成失败。一旦生成有效的提交，过程即终止，并用该提交微调学生模型。  

##### 迭代代理  
在此设置中，代理通过闭环数据工程过程持续提升模型性能。受近期自改进代理研究启发 (Madaan et al., 2023; Jiang et al., 2025)，我们探究LLM能否通过利用环境反馈信号，将此类能力应用于数据工程。为此，我们设计了迭代代理，如图2(b-i)所示，包含四种操作：  

- • **起草**：在任务设置和数据集描述的指导下，代理制定新的数据合成策略计划，并通过可执行代码实现。  
- • **调试**：当生成的代码执行时抛出错误，代理分析回溯信息以诊断并修复错误，确保脚本成功执行。  
- • **修复**：当代码成功执行但生成的 `submission.json` 未通过验证时，代理要么改进合成策略以重新生成数据，要么对原始数据中的现有实例进行后处理，确保提交满足所需数量与格式。  
- • **改进**：利用环境反馈，代理进行迭代改进：它应用...  

（由于原文在“Improve”处截断，根据上下文推测后续内容，但此处按照给定原文完整翻译）

探索用于模型特化的自主代理数据工程

相似文章

生成更好训练数据的智能体（25分钟阅读）

@neural_avb: https://x.com/neural_avb/status/2072294078805684613

@rohanpaul_ai: 非常重要的Meta论文带来Autodata，一个自主数据科学家，用于创建高质量合成数据。主要…

OpenAI的GPT-5.6系列、训练机器人的新方法、模型调用模型

GPT-Red：通过规模化自我对弈实现自动化红队测试

提交意见反馈