@HarveenChadha: Meta 发布 Autodata:一个用于生成高质量合成数据的代理数据科学家,本质上是一个循环。给定一个…

X AI KOLs Timeline 模型

摘要

Meta 发布 Autodata,一个通过迭代使用多个 LLM 调整任务难度来生成高质量合成数据的代理数据科学家,输出用于 GRPO 训练。

Meta 发布 Autodata:一个用于生成高质量合成数据的代理数据科学家 本质上是一个循环。给定一个文档(比如一篇 Arxiv 论文) - 有一个挑战者 LLM 读取文档并写出问题 + 上下文 + 评分标准 + 答案 - 两个求解器 LLM 尝试回答问题:一个弱求解器,一个强求解器 - 评审 LLM 检查两个求解器的输出并按照评分标准进行评分,判断给定的任务是否恰到好处。“恰到好处”意味着任务足够困难,弱模型难以应对,而强模型表现优异。 - 如果任务不合适,并不会直接丢弃,而是反馈失败原因,比如太简单、评分标准不完善等,然后挑战者 LLM 从新的角度重写任务 - 循环持续 n 次(论文中平均为 6 次)。保留下来的任务成为 GRPO 训练数据,并使用相同的评审 LLM 作为验证器。 这个反馈循环就是产品。因此,并不是让数据变得更难,而是让数据对弱模型来说恰到好处,以便其逐步提升。
查看原文
查看缓存全文

缓存时间: 2026/06/26 04:05

Meta 发布 Autodata:一个用于生成高质量合成数据的智能数据科学家

基本上它是一个循环。给定一个文档(比如 arXiv 论文):

  • 存在一个挑战者 LLM,它读取文档并生成问题、上下文、评分标准以及答案
  • 两个求解器 LLM 尝试回答问题:一个弱求解器,一个强求解器
  • 评判者 LLM 检查两个求解器的生成结果,并根据评分标准进行评分,然后判断该任务是否恰到好处。恰到好处意味着任务足够困难,弱模型难以应对,而强模型表现出色。
  • 如果任务不符合要求,它不会丢弃该任务,而是提供失败原因反馈(比如太简单、评分标准不佳等),然后挑战者 LLM 从新的角度重新生成任务。
  • 循环持续 n 次(论文中平均为 6 次)。幸存的任务成为 GRPO 训练数据,并使用同一个评判者 LLM 作为验证器。

这个反馈循环本身就是产品。因此,它不是让数据变得更难,而是让数据恰到好处,以便弱模型能够逐步提升。

link

相似文章

生成更好训练数据的智能体(25分钟阅读)

TLDR AI

Autodata 引入了一种智能体数据科学家,它能够迭代生成并优化合成训练数据,并通过元优化进一步提升数据质量,在计算机科学和法律推理任务上取得了更好的效果。

@neural_avb: https://x.com/neural_avb/status/2072294078805684613

X AI KOLs Timeline

本论文介绍了Autodata,这是一种利用智能“数据科学家”AI的方法,通过迭代生成、验证和优化来自动创建高质量合成数据集,该方法特别针对强化学习(GRPO)进行了优化,以提升语言模型的推理能力。