DataClaw0:从原始流中智能裁剪多模态数据
摘要
DataClaw0提出了一种智能数据裁剪范式,利用可学习的数据处理来结构化高熵多模态流,通过在一个新型基准上进行SFT和GRPO实现了稳健的对齐。
查看缓存全文
缓存时间: 2026/06/23 09:41
论文页面 - DataClaw0: 从原始流中主动定制多模态数据
来源: https://huggingface.co/papers/2606.21337 发表于 6月19日
·
由 https://huggingface.co/Coneonewan 提交
Cong (https://huggingface.co/Coneonewan)于 6月23日
摘要
主动数据定制范式利用可学习的数据处理来结构化高熵多模态流,DataClaw_0-9B 模型通过在一个新型基准上的 SFT 和 GRPO 实现了鲁棒的对齐。
海量非结构化多模态流 (https://huggingface.co/papers?q=multimodal%20streams) 饱受高“数据熵 (https://huggingface.co/papers?q=data%20entropy)”之苦,阻碍了高效的人类知识获取和高质量 AI 后训练。现有的被动标注范式严重依赖启发式规则或通用 VLM,成本高昂、单调乏味,且无法挖掘原始数据中蕴含的深层过程逻辑。我们将数据处理提升为一种可学习的能力,提出向主动数据定制 (https://huggingface.co/papers?q=Agentic%20Data%20Tailoring) 的范式转变,主动精炼和结构化数据以符合多样化的用户和下游意图。为了克服训练此类高阶能力时的数据稀缺瓶颈,我们设计了一个两阶段流水线,将生成式语义合成 (https://huggingface.co/papers?q=generative%20semantic%20synthesis) 锚定在确定性事实锚点 (https://huggingface.co/papers?q=deterministic%20Factual%20Anchors) 上,生成了一个覆盖五大核心物理和数字领域的大规模数据集。在此基础上,DataClaw_0-9B 模型协同了监督微调 (https://huggingface.co/papers?q=Supervised%20Fine-Tuning) (SFT) 与组相对策略优化 (https://huggingface.co/papers?q=Group%20Relative%20Policy%20Optimization) (GRPO),实现了与复杂精炼和定制意图的鲁棒对齐。为了系统量化这一能力,我们构建了 DataClaw_0-val,这是第一个专门用于数据精炼 (https://huggingface.co/papers?q=data%20refinement) 的基准。关键的是,我们采用下游后训练 (https://huggingface.co/papers?q=downstream%20post-training) 作为最终的验证试金石。在视频生成、真实世界 VQA 和 GUI 导航上的评估证实,DataClaw_0 提供高信息密度的定制数据,促进了模型在有限训练数据条件下对新任务的高效适应。项目页面: https://czjdsg.github.io/MakeAnyData
查看 arXiv 页面 (https://arxiv.org/abs/2606.21337)查看 PDF (https://arxiv.org/pdf/2606.21337)项目页面 (https://czjdsg.github.io/MakeAnyData/#cases)GitHub4 (https://github.com/vancyland/DataClaw0)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.21337)
在你的 Agent 中获取此论文:
hf papers read 2606\.21337
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用该论文的模型0
无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。
引用该论文的数据集0
无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。
引用该论文的 Spaces0
无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.21337 以链接到此页面。
包含该论文的收藏集0
无收藏集包含此论文
请将该论文添加到一个收藏集 (https://huggingface.co/new-collection) 中以链接到此页面。
相似文章
DataArc-SynData-Toolkit:用于多路径、多模态和多语言数据合成的统一闭环框架
本文介绍了 DataArc-SynData-Toolkit,这是一个开源框架,旨在简化多路径、多模态和多语言合成数据的生成。它通过统一的、基于配置的流水线,旨在降低技术门槛并提高在训练大型语言模型过程中的可用性。
VisualClaw: 面向物理世界的实时个性化智能体
VisualClaw是一种自我进化的多模态智能体,通过混合编码和技能进化降低部署成本,同时在多个基准测试中提高了视频问答的准确性。
CL-DMDF:基于对比学习的动态多模态数据融合模型
本文提出了CL-DMDF,一种基于对比学习和双维度注意力机制的动态多模态数据融合模型,用于处理缺失模态并提升判别学习能力。
大型语言模型的对齐微调:以数据为中心的视角看对齐数据流水线
本综述将大型语言模型的对齐微调重新表述为一个数据流水线设计问题,将其分解为三个环节:响应合成、偏好评估和偏好实例化。它识别了设计权衡和失败模式,并概述了开放挑战,如提示级对齐和智能体设置。
Constraint-Aware Flow Matching: 面向约束采样的决策对齐端到端训练
提出了Constraint-Aware Flow Matching,一种新颖的端到端框架,将模型的学习动态与约束采样过程对齐,减轻了投影校正带来的分布偏移,从而实现高质量的约束生成。