世界模型自蒸馏:训练世界模型解决通用任务

Hugging Face Daily Papers 论文

摘要

一个可扩展的框架结合了自蒸馏和强化学习,将任务解决能力从视觉语言模型迁移到视频扩散模型,无需标注的任务-视频数据。

预训练的视频生成器是有前景的视觉世界模型,它们展现出涌现的任务解决能力;然而,它们对详细文本描述的依赖限制了其在规划和决策中的直接应用。现有方法要么将这种推理外包给语言或视觉语言模型,要么依赖带有配对任务执行视频的监督微调,这类视频收集成本高且难以扩展。我们提出了一个可扩展的框架,通过结合自蒸馏与强化学习来激发这类模型的任务解决能力。给定一张未标注的场景图像,视觉语言模型生成一个候选任务和详细的逐步解决方案。该解决方案条件化一个预训练的视频扩散模型,即Demonstrator;我们将它的行为蒸馏到Executor中,后者仅以图像和简短任务提示为条件。这实现了从标题引导生成到指令条件任务解决的知识迁移,无需精心收集的任务-视频监督。我们进一步通过来自VLM反馈的强化学习来改进Executor,利用了判断采样视频是否满足任务与生成解决方案之间的不对称性。在我们提出的WorldTasks-Benchmark和DreamGen机器人基准上的实验表明,在我们基于VLM的评估协议下,Executor超越了Demonstrator,并能竞争性地迁移到机器人任务中。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:40

论文页面 - World Model Self-Distillation: Training World Models to Solve General Tasks

来源:https://huggingface.co/papers/2606.12072

摘要

一种可扩展的框架结合了自蒸馏(self-distillation)与强化学习(reinforcement learning),将任务求解能力从视觉语言模型(vision-language model)迁移至视频扩散模型(video diffusion model),且无需标注的任务-视频数据。

预训练的视频生成器作为有前景的视觉世界模型,展现出涌现的任务求解能力;然而,它们对详细文本描述的依赖限制了其直接用于规划与决策。现有方法要么将推理外包给语言或视觉语言模型(https://huggingface.co/papers?q=vision-language%20model),要么依赖使用配对任务执行视频的监督微调,但后者收集成本高昂且难以扩展。我们提出一种可扩展框架,通过结合自蒸馏(https://huggingface.co/papers?q=self-distillation)与强化学习(https://huggingface.co/papers?q=reinforcement%20learning),激发此类模型的任务求解能力。给定一张未标注的场景图像,视觉语言模型(https://huggingface.co/papers?q=vision-language%20model)生成一个候选任务及详细的逐步解决方案。该解决方案条件化一个预训练的视频扩散模型(https://huggingface.co/papers?q=video%20diffusion%20model),即Demonstrator(https://huggingface.co/papers?q=Demonstrator);我们将其行为蒸馏至仅以图像和简短任务提示为条件的Executor(https://huggingface.co/papers?q=Executor)中。这一过程将执行知识从基于标题的生成迁移到基于指令的任务求解中,无需精心整理的任务视频监督。我们还通过来自VLM反馈的强化学习(https://huggingface.co/papers?q=reinforcement%20learning)进一步改进Executor(https://huggingface.co/papers?q=Executor),利用了判断采样视频是否满足任务与生成解决方案之间的不对称性。在我们提出的WorldTasks-Benchmark(https://huggingface.co/papers?q=WorldTasks-Benchmark)和DreamGen机器人基准(https://huggingface.co/papers?q=DreamGen%20robotics%20benchmark)上的实验表明,Executor(https://huggingface.co/papers?q=Executor)在我们基于VLM的评估协议(https://huggingface.co/papers?q=VLM-based%20evaluation)下超越了Demonstrator(https://huggingface.co/papers?q=Demonstrator),并以有竞争力的方式迁移至机器人任务。

查看arXiv页面(https://arxiv.org/abs/2606.12072)查看PDF(https://arxiv.org/pdf/2606.12072)项目页面(https://sebastian-stapf.github.io/world-model-self-distillation/)GitHub6(https://github.com/sebastian-stapf/world-model-self-distillation)加入收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.12072)

社区

论文提交者

大约11小时前(https://huggingface.co/papers/2606.12072#6a2a1e94dc61afb3ea908c25)

一种可扩展框架,通过自蒸馏和基于VLM反馈的强化学习训练世界模型来求解任务。

通过拖拽、粘贴或点击此处上传图像、音频和视频。

点击或在此处粘贴以上传图像

在您的代理中获取此论文:

hf papers read 2606\.12072

没有最新的CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

请在模型README.md中引用arxiv.org/abs/2606.12072以从此页面链接。

引用此论文的数据集0

无数据集链接此论文

请在数据集README.md中引用arxiv.org/abs/2606.12072以从此页面链接。

引用此论文的Spaces0

无Space链接此论文

请在Space README.md中引用arxiv.org/abs/2606.12072以从此页面链接。

包含此论文的收藏集2

相似文章

GDSD:强化学习作为扩散语言模型的引导式降噪器自蒸馏

Hugging Face Daily Papers

GDSD提出了一种强化学习方法,直接从优势引导的自教师中蒸馏扩散语言模型的降噪器,避免了基于ELBO的似然代理带来的偏差。在规划、数学和编码基准上,比先前最先进的方法准确率提升高达+19.6%。

通过扩散策略优化扩展世界模型强化学习

arXiv cs.LG

提出模型基扩散策略优化(MBDPO)框架,该框架通过扩散策略表示统一了世界模型中的搜索与策略优化,在离线与在线强化学习任务中实现一致的扩展行为和卓越性能。

UniSD:面向大型语言模型的统一自蒸馏框架

Hugging Face Daily Papers

本文提出了 UniSD,这是一种用于适应大型语言模型的统一自蒸馏框架,整合了监督可靠性、表征对齐和训练稳定性的机制。实验结果表明,UniSD 在多个基准测试中均优于基础模型和现有基线方法。