Masked Diffusion Language Models 是强大且可操控的基于文本的世界模型，用于智能体强化学习 [R]

Reddit r/MachineLearning 2026/05/21 04:36 论文

masked-diffusion language-models world-models reinforcement-learning agentic-rl steerable

摘要

本文提出将 Masked Diffusion Language Models (MDLMs) 作为基于文本的世界模型用于智能体强化学习，表明其任意顺序去噪目标避免了前缀模式崩溃，并且相比自回归基线模型带来了更强的性能。

自回归 LLM 世界模型将下一状态生成从左到右进行因式分解，使其无法以全局相互依赖的锚点（工具模式、尾部状态字段、预期结果）为条件，产生前缀一致但全局不一致的轨迹。MDLMs 的任意顺序去噪目标通过学习来自相同训练信号的每个条件方向来规避这一问题。实验上，微调的 MDLMs（SDAR-8B, WeDLM-8B）在领域内和领域外划分的 BLEU-1、ROUGE-L 和 MAUVE 指标上，超过了参数总量高达其4倍的自回归基线模型。更低的 Self-BLEU 和更高的 Distinct-N 证实了前缀模式崩溃的减少。在零样本迁移设置下，针对 1.2B–7B 骨干模型（LFM2.5, Qwen3, Mistral），在 MDLM 生成的轨迹上进行 GRPO 训练，相比在 AR 生成的轨迹上训练的模型，在保留的 ScienceWorld、ALFWorld 和 AppWorld 上显示出高达 +15% 的绝对任务成功率提升。

查看原文

Masked Diffusion Language Models 是强大且可操控的基于文本的世界模型，用于智能体强化学习 [R]

相似文章

掩码语言流模型

基于轨迹的在策略蒸馏用于掩码扩散语言模型

掩码扩散解码作为$x$-预测流

SLIM-RL: 基于风险预算的随机掩码强化学习用于扩散语言模型，无需轨迹切分

GDSD：强化学习作为扩散语言模型的引导式降噪器自蒸馏

提交意见反馈