标签
介绍了DLLM-JEPA,这是一种针对掩码扩散语言模型的JEPA公式,通过扩散噪声调度从单个输入构建两个视图,相比LLM-JEPA减少了33%的训练FLOPs,并在GSM8K等任务上提升了微调性能。