@HarveenChadha: Meta 发布 Autodata：一个用于生成高质量合成数据的代理数据科学家，本质上是一个循环。给定一个…

X AI KOLs Timeline 2026/06/25 13:48 模型

synthetic-data autodata meta data-generation agentic-ai self-improving-loop

摘要

Meta 发布 Autodata，一个通过迭代使用多个 LLM 调整任务难度来生成高质量合成数据的代理数据科学家，输出用于 GRPO 训练。

Meta 发布 Autodata：一个用于生成高质量合成数据的代理数据科学家本质上是一个循环。给定一个文档（比如一篇 Arxiv 论文） - 有一个挑战者 LLM 读取文档并写出问题 + 上下文 + 评分标准 + 答案 - 两个求解器 LLM 尝试回答问题：一个弱求解器，一个强求解器 - 评审 LLM 检查两个求解器的输出并按照评分标准进行评分，判断给定的任务是否恰到好处。“恰到好处”意味着任务足够困难，弱模型难以应对，而强模型表现优异。 - 如果任务不合适，并不会直接丢弃，而是反馈失败原因，比如太简单、评分标准不完善等，然后挑战者 LLM 从新的角度重写任务 - 循环持续 n 次（论文中平均为 6 次）。保留下来的任务成为 GRPO 训练数据，并使用相同的评审 LLM 作为验证器。这个反馈循环就是产品。因此，并不是让数据变得更难，而是让数据对弱模型来说恰到好处，以便其逐步提升。

查看原文

查看缓存全文

缓存时间: 2026/06/26 04:05

Meta 发布 Autodata：一个用于生成高质量合成数据的智能数据科学家

基本上它是一个循环。给定一个文档（比如 arXiv 论文）：

存在一个挑战者 LLM，它读取文档并生成问题、上下文、评分标准以及答案
两个求解器 LLM 尝试回答问题：一个弱求解器，一个强求解器
评判者 LLM 检查两个求解器的生成结果，并根据评分标准进行评分，然后判断该任务是否恰到好处。恰到好处意味着任务足够困难，弱模型难以应对，而强模型表现出色。
如果任务不符合要求，它不会丢弃该任务，而是提供失败原因反馈（比如太简单、评分标准不佳等），然后挑战者 LLM 从新的角度重新生成任务。
循环持续 n 次（论文中平均为 6 次）。幸存的任务成为 GRPO 训练数据，并使用同一个评判者 LLM 作为验证器。

这个反馈循环本身就是产品。因此，它不是让数据变得更难，而是让数据恰到好处，以便弱模型能够逐步提升。

link

@HarveenChadha: Meta 发布 Autodata：一个用于生成高质量合成数据的代理数据科学家，本质上是一个循环。给定一个…

相似文章

Autodata：一个用于创建高质量合成数据的智能体数据科学家

@rohanpaul_ai: 非常重要的Meta论文带来Autodata，一个自主数据科学家，用于创建高质量合成数据。主要…

生成更好训练数据的智能体（25分钟阅读）

@neural_avb: https://x.com/neural_avb/status/2072294078805684613

@jaseweston: 主张：推动前沿的自动研究将围绕更好的数据展开——我们称之为 Autodata。1/6 —— 论文已发布！ht…

提交意见反馈