GDSD：强化学习作为扩散语言模型的引导式降噪器自蒸馏

Hugging Face Daily Papers 2026/05/28 00:00 论文

diffusion-language-models reinforcement-learning self-distillation denoiser llm training-method

摘要

GDSD提出了一种强化学习方法，直接从优势引导的自教师中蒸馏扩散语言模型的降噪器，避免了基于ELBO的似然代理带来的偏差。在规划、数学和编码基准上，比先前最先进的方法准确率提升高达+19.6%。

强化学习（RL）可用于改善扩散大语言模型（dLLMs）的策略（降噪器），但受到策略似然性难以处理的阻碍。一种主流且高效的方法族将标准强化学习中的似然性替换为其证据下界（ELBO），该下界从随机掩码序列中估计。尽管与预训练高度一致，但这些方法通过使用ELBO作为似然代理引入了训练-推理不匹配导致的偏差，从而可能降低性能。在这项工作中，我们提出了引导式降噪器自蒸馏（GDSD），直接从反KL正则化强化学习的闭式最优解导出的优势引导自教师中蒸馏dLLMs的降噪器。GDSD通过无归一化目标将dLLM的降噪器logits与教师的匹配，将强化学习简化为无似然自蒸馏，从而绕过了训练-推理不匹配偏差。最近的基于ELBO的方法表现为应用不同蒸馏散度的实例，但具有GDSD避免的可诊断病态。在采用LLaDA-8B和Dream-7B的规划、数学和编码基准上，GDSD持续优于先前最先进的基于ELBO的方法，具有更稳定的训练奖励动态，测试准确率提升高达+19.6%。这些结果表明，直接降噪器自蒸馏无需依赖ELBO似然代理，可为dLLMs提供更稳定有效的强化学习流程。代码可在 https://github.com/GaryBall/GDSD 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/01 11:20

论文页面 - GDSD：将强化学习视为扩散语言模型的引导去噪器自蒸馏

来源：https://huggingface.co/papers/2605.29398

摘要

引导去噪器自蒸馏（Guided Denoiser Self-Distillation, GDSD）通过从优势引导的自教师直接蒸馏去噪器，改进了扩散大语言模型，避免了ELBO似然替代带来的偏差，并在基准任务上取得了更优的性能。

强化学习（Reinforcement learning (https://huggingface.co/papers?q=Reinforcement%20learning)）可用于改进扩散大语言模型（diffusion large language models (https://huggingface.co/papers?q=diffusion%20large%20language%models)）（dLLMs）的策略（去噪器 (https://huggingface.co/papers?q=denoiser)），但受到策略似然难以处理的阻碍。一种主流且高效的方法族将标准RL中的似然替换为其证据下界（evidence lower bound (https://huggingface.co/papers?q=evidence%20lower%20bound)）（ELBO (https://huggingface.co/papers?q=ELBO)），该下界通过随机掩码序列估计。尽管这些方法与预训练高度一致，但通过将ELBO (https://huggingface.co/papers?q=ELBO)作为似然替代引入训练-推理不匹配（training–inference mismatch (https://huggingface.co/papers?q=training–inference%20mismatch)）的偏差，可能损害性能。在这项工作中，我们提出引导去噪器（Guided Denoiser (https://huggingface.co/papers?q=Denoiser)）自蒸馏（Self-Distillation (https://huggingface.co/papers?q=Self-Distillation)）（GDSD），直接从来自反向KL正则化强化学习（reverse-KL regularized RL (https://huggingface.co/papers?q=reverse-KL%20regularized%20RL)）闭式最优解（closed-form optimum (https://huggingface.co/papers%q=closed-form%20optimum)）的优势引导自教师蒸馏dLLM的去噪器。GDSD通过一个免归一化目标（normalization-free objective (https://huggingface.co/papers?q=normalization-free%20objective)）将dLLM的去噪器logits (https://huggingface.co/papers?q=denoiser%20logits)与教师匹配，从而将RL简化为免似然自蒸馏（likelihood-free self-distillation (https://huggingface.co/papers?q=likelihood-free%20self-distillation)），进而绕过了TIM偏差。近期基于ELBO (https://huggingface.co/papers?q=ELBO)的方法作为应用不同蒸馏散度的实例出现，但带有GDSD可避免的可诊断病态（pathologies (https://huggingface.co/papers?q=pathologies)）。在LLaDA-8B (https://huggingface.co/papers?q=LLaDA-8B)和Dream-7B (https://huggingface.co/papers?q=Dream-7B)的规划、数学和编码基准上，GDSD持续优于先前最先进的基于ELBO (https://huggingface.co/papers?q=ELBO)的方法，训练奖励动态更稳定，测试准确率提升高达+19.6%。这些结果表明，直接进行去噪器（denoiser）自蒸馏（self-distillation），无需依赖ELBO (https://huggingface.co/papers?q=ELBO)似然替代，可为dLLM提供更稳定且有效的RL过程。代码已开源：https://github.com/GaryBall/GDSD。

查看arXiv页面 (https://arxiv.org/abs/2605.29398)查看PDF (https://arxiv.org/pdf/2605.29398)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29398)

在您的智能体中获取此论文：

hf papers read 2605.29398

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型5

diffusion-reasoning/gdsd_countdown_dream 文本生成•8B•更新于约3小时前•23 (https://huggingface.co/diffusion-reasoning/gdsd_countdown_dream)

diffusion-reasoning/gdsd_sudoku_dream 文本生成•8B•更新于约3小时前•23 (https://huggingface.co/diffusion-reasoning/gdsd_sudoku_dream)

diffusion-reasoning/gdsd_sudoku_llada 文本生成•8B•更新于约3小时前•24 (https://huggingface.co/diffusion-reasoning/gdsd_sudoku_llada)

diffusion-reasoning/gdsd_countdown_llada 文本生成•8B•更新于约3小时前•21 (https://huggingface.co/diffusion-reasoning/gdsd_countdown_llada)

浏览5个引用此论文的模型 (https://huggingface.co/models?other=arxiv:2605.29398)

引用此论文的数据集0

没有链接此论文的数据集

在数据集的README.md中引用arxiv.org/abs/2605.29398，即可从此页面链接。

引用此论文的Spaces0

没有链接此论文的Space

在Space的README.md中引用arxiv.org/abs/2605.29398，即可从此页面链接。

包含此论文的合集0

没有包含此论文的合集

将这篇论文添加到合集 (https://huggingface.co/new-collection)以从此页面链接。

GDSD：强化学习作为扩散语言模型的引导式降噪器自蒸馏

论文页面 - GDSD：将强化学习视为扩散语言模型的引导去噪器自蒸馏

摘要

引用此论文的模型5

diffusion-reasoning/gdsd_countdown_dream 文本生成•8B•更新于约3小时前•23 (https://huggingface.co/diffusion-reasoning/gdsd_countdown_dream)

diffusion-reasoning/gdsd_sudoku_dream 文本生成•8B•更新于约3小时前•23 (https://huggingface.co/diffusion-reasoning/gdsd_sudoku_dream)

diffusion-reasoning/gdsd_sudoku_llada 文本生成•8B•更新于约3小时前•24 (https://huggingface.co/diffusion-reasoning/gdsd_sudoku_llada)

diffusion-reasoning/gdsd_countdown_llada 文本生成•8B•更新于约3小时前•21 (https://huggingface.co/diffusion-reasoning/gdsd_countdown_llada)

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的合集0

相似文章

dOPSD：扩散语言模型中的在线策略自蒸馏方法

DACA-GRPO：扩散语言模型中强化学习的去噪感知信用分配

向自我未来学习：面向扩散大语言模型的自策略知识蒸馏

基于轨迹的在策略蒸馏用于掩码扩散语言模型

读取轨迹，引导路径：面向扩散语言模型的轨迹感知强化学习

提交意见反馈