DataClaw0：从原始流中智能裁剪多模态数据

Hugging Face Daily Papers 2026/06/19 00:00 论文

data-processing multimodal model benchmark sft grpo agentic-tailoring

摘要

DataClaw0提出了一种智能数据裁剪范式，利用可学习的数据处理来结构化高熵多模态流，通过在一个新型基准上进行SFT和GRPO实现了稳健的对齐。

大量非结构化的多模态流存在高“数据熵”问题，阻碍了高效的人类知识获取和高质量的AI后训练。现有的被动标注范式严重依赖启发式规则或通用VLMs，成本高、单调且无法解锁原始数据中蕴含的深层程序逻辑。我们将数据处理提升为一种可学习的能力，提出了向Agentic Data Tailoring的范式转变，该方式主动提炼和结构化数据，以与多样化的用户和下游意图对齐。为了克服训练此类高阶能力时的数据稀缺瓶颈，我们设计了一个两阶段流水线，将生成式语义合成锚定于确定性Factual Anchors，生成了一个涵盖五大核心物理和数字领域的大规模数据集。在此基础上，DataClaw_0-9B模型协同了监督微调（SFT）与组相对策略优化（GRPO），实现了与复杂精炼和裁剪意图的稳健对齐。为了系统性地量化这一能力，我们构建了DataClaw_0-val，这是首个专门用于数据精炼的基准。关键的是，我们采用下游后训练作为最终的验证试金石。在视频生成、真实世界VQA和GUI导航上的评估证实，DataClaw_0提供了高信息密度的裁剪数据，促进了模型在有限训练数据条件下对新任务的高效适应。Project page: https://czjdsg.github.io/MakeAnyData

查看原文

查看缓存全文

缓存时间: 2026/06/23 09:41

论文页面 - DataClaw0: 从原始流中主动定制多模态数据

来源: https://huggingface.co/papers/2606.21337 发表于 6月19日

由 https://huggingface.co/Coneonewan 提交

Cong (https://huggingface.co/Coneonewan)于 6月23日

摘要

主动数据定制范式利用可学习的数据处理来结构化高熵多模态流，DataClaw_0-9B 模型通过在一个新型基准上的 SFT 和 GRPO 实现了鲁棒的对齐。

海量非结构化多模态流 (https://huggingface.co/papers?q=multimodal%20streams) 饱受高“数据熵 (https://huggingface.co/papers?q=data%20entropy)”之苦，阻碍了高效的人类知识获取和高质量 AI 后训练。现有的被动标注范式严重依赖启发式规则或通用 VLM，成本高昂、单调乏味，且无法挖掘原始数据中蕴含的深层过程逻辑。我们将数据处理提升为一种可学习的能力，提出向主动数据定制 (https://huggingface.co/papers?q=Agentic%20Data%20Tailoring) 的范式转变，主动精炼和结构化数据以符合多样化的用户和下游意图。为了克服训练此类高阶能力时的数据稀缺瓶颈，我们设计了一个两阶段流水线，将生成式语义合成 (https://huggingface.co/papers?q=generative%20semantic%20synthesis) 锚定在确定性事实锚点 (https://huggingface.co/papers?q=deterministic%20Factual%20Anchors) 上，生成了一个覆盖五大核心物理和数字领域的大规模数据集。在此基础上，DataClaw_0-9B 模型协同了监督微调 (https://huggingface.co/papers?q=Supervised%20Fine-Tuning) (SFT) 与组相对策略优化 (https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization) (GRPO)，实现了与复杂精炼和定制意图的鲁棒对齐。为了系统量化这一能力，我们构建了 DataClaw_0-val，这是第一个专门用于数据精炼 (https://huggingface.co/papers?q=data%20refinement) 的基准。关键的是，我们采用下游后训练 (https://huggingface.co/papers?q=downstream%20post-training) 作为最终的验证试金石。在视频生成、真实世界 VQA 和 GUI 导航上的评估证实，DataClaw_0 提供高信息密度的定制数据，促进了模型在有限训练数据条件下对新任务的高效适应。项目页面: https://czjdsg.github.io/MakeAnyData

查看 arXiv 页面 (https://arxiv.org/abs/2606.21337)查看 PDF (https://arxiv.org/pdf/2606.21337)项目页面 (https://czjdsg.github.io/MakeAnyData/#cases)GitHub4 (https://github.com/vancyland/DataClaw0)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.21337)

在你的 Agent 中获取此论文:

hf papers read 2606\.21337

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用该论文的模型0

无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。

引用该论文的数据集0

无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。

引用该论文的 Spaces0

无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。

包含该论文的收藏集0

无收藏集包含此论文

请将该论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以链接到此页面。

DataClaw0：从原始流中智能裁剪多模态数据

论文页面 - DataClaw0: 从原始流中主动定制多模态数据

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Spaces0

包含该论文的收藏集0

相似文章

DataArc-SynData-Toolkit：用于多路径、多模态和多语言数据合成的统一闭环框架

VisualClaw: 面向物理世界的实时个性化智能体

CL-DMDF：基于对比学习的动态多模态数据融合模型

大型语言模型的对齐微调：以数据为中心的视角看对齐数据流水线

Constraint-Aware Flow Matching: 面向约束采样的决策对齐端到端训练

提交意见反馈