DataClaw0:从原始流中智能裁剪多模态数据

Hugging Face Daily Papers 论文

摘要

DataClaw0提出了一种智能数据裁剪范式,利用可学习的数据处理来结构化高熵多模态流,通过在一个新型基准上进行SFT和GRPO实现了稳健的对齐。

大量非结构化的多模态流存在高“数据熵”问题,阻碍了高效的人类知识获取和高质量的AI后训练。现有的被动标注范式严重依赖启发式规则或通用VLMs,成本高、单调且无法解锁原始数据中蕴含的深层程序逻辑。我们将数据处理提升为一种可学习的能力,提出了向Agentic Data Tailoring的范式转变,该方式主动提炼和结构化数据,以与多样化的用户和下游意图对齐。为了克服训练此类高阶能力时的数据稀缺瓶颈,我们设计了一个两阶段流水线,将生成式语义合成锚定于确定性Factual Anchors,生成了一个涵盖五大核心物理和数字领域的大规模数据集。在此基础上,DataClaw_0-9B模型协同了监督微调(SFT)与组相对策略优化(GRPO),实现了与复杂精炼和裁剪意图的稳健对齐。为了系统性地量化这一能力,我们构建了DataClaw_0-val,这是首个专门用于数据精炼的基准。关键的是,我们采用下游后训练作为最终的验证试金石。在视频生成、真实世界VQA和GUI导航上的评估证实,DataClaw_0提供了高信息密度的裁剪数据,促进了模型在有限训练数据条件下对新任务的高效适应。Project page: https://czjdsg.github.io/MakeAnyData
查看原文
查看缓存全文

缓存时间: 2026/06/23 09:41

论文页面 - DataClaw0: 从原始流中主动定制多模态数据

来源: https://huggingface.co/papers/2606.21337 发表于 6月19日

·

由 https://huggingface.co/Coneonewan 提交

Cong (https://huggingface.co/Coneonewan)于 6月23日

摘要

主动数据定制范式利用可学习的数据处理来结构化高熵多模态流,DataClaw_0-9B 模型通过在一个新型基准上的 SFT 和 GRPO 实现了鲁棒的对齐。

海量非结构化多模态流 (https://huggingface.co/papers?q=multimodal%20streams) 饱受高“数据熵 (https://huggingface.co/papers?q=data%20entropy)”之苦,阻碍了高效的人类知识获取和高质量 AI 后训练。现有的被动标注范式严重依赖启发式规则或通用 VLM,成本高昂、单调乏味,且无法挖掘原始数据中蕴含的深层过程逻辑。我们将数据处理提升为一种可学习的能力,提出向主动数据定制 (https://huggingface.co/papers?q=Agentic%20Data%20Tailoring) 的范式转变,主动精炼和结构化数据以符合多样化的用户和下游意图。为了克服训练此类高阶能力时的数据稀缺瓶颈,我们设计了一个两阶段流水线,将生成式语义合成 (https://huggingface.co/papers?q=generative%20semantic%20synthesis) 锚定在确定性事实锚点 (https://huggingface.co/papers?q=deterministic%20Factual%20Anchors) 上,生成了一个覆盖五大核心物理和数字领域的大规模数据集。在此基础上,DataClaw_0-9B 模型协同了监督微调 (https://huggingface.co/papers?q=Supervised%20Fine-Tuning) (SFT) 与组相对策略优化 (https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization) (GRPO),实现了与复杂精炼和定制意图的鲁棒对齐。为了系统量化这一能力,我们构建了 DataClaw_0-val,这是第一个专门用于数据精炼 (https://huggingface.co/papers?q=data%20refinement) 的基准。关键的是,我们采用下游后训练 (https://huggingface.co/papers?q=downstream%20post-training) 作为最终的验证试金石。在视频生成、真实世界 VQA 和 GUI 导航上的评估证实,DataClaw_0 提供高信息密度的定制数据,促进了模型在有限训练数据条件下对新任务的高效适应。项目页面: https://czjdsg.github.io/MakeAnyData

查看 arXiv 页面 (https://arxiv.org/abs/2606.21337)查看 PDF (https://arxiv.org/pdf/2606.21337)项目页面 (https://czjdsg.github.io/MakeAnyData/#cases)GitHub4 (https://github.com/vancyland/DataClaw0)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.21337)

在你的 Agent 中获取此论文:

hf papers read 2606\.21337

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。

引用该论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。

引用该论文的 Spaces0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。

包含该论文的收藏集0

无收藏集包含此论文

请将该论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以链接到此页面。

相似文章