TextLDM：利用连续潜在扩散进行语言建模

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

本文介绍了 TextLDM，这是一种通过将离散标记映射到连续潜在空间，从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明，该方法在表示对齐的增强下，达到了与 GPT-2 相当的性能，并统一了视觉与文本生成的架构。

在 VAE 潜在空间中通过流匹配（flow matching）训练的扩散 Transformer（DiT）已经统一了图像和视频的视觉生成。迈向单一架构以同时涵盖生成（视觉合成）和理解（文本生成）的自然下一步，是将该框架应用于语言建模。我们提出了 TextLDM，该方法在极小的架构修改下，将视觉潜在扩散的方案迁移至文本生成。基于 Transformer 的 VAE 将离散标记映射为连续潜在表示，并通过与冻结的预训练语言模型进行表示对齐（REPA）进行增强，以生成对条件去噪有效的表示。随后，标准的 DiT 在此潜在空间中执行流匹配，其架构与视觉版本完全相同。我们要解决的核心挑战是获取高质量的连续文本表示：我们发现仅依靠重建保真度是不够的，通过 REPA 将潜在特征与预训练语言模型对齐对于下游生成质量至关重要。TextLDM 在 OpenWebText2 上从头训练，显著优于先前的扩散语言模型，并在相同设置下达到了 GPT-2 的性能水平。我们的结果表明，视觉 DiT 的方案可以有效地迁移到语言领域，为实现多模态生成与理解的统一扩散架构迈出了实质性的一步。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 07:20

论文页面 - TextLDM：结合连续潜在扩散的语言建模

来源: https://huggingface.co/papers/2605.07748 作者:

摘要

TextLDM 通过将离散 token 映射为连续潜在变量，并利用表示对齐（Representation Alignment）来改善文本生成质量，从而将视觉潜在扩散 Transformer 适配用于语言建模。

在 VAE 潜在空间中使用流匹配（flow matching）训练的扩散 Transformer（Diffusion Transformers, DiT）统一了图像和视频的视觉生成。迈向一个既能生成（视觉合成）又能理解（文本生成）的统一架构的自然下一步，是将此框架应用于语言建模。我们提出了 TextLDM，它以最小的架构修改将视觉潜在扩散方案迁移到文本生成。基于 Transformer 的 VAE 将离散 token 映射为连续潜在变量，并通过与冻结的预训练语言模型进行表示对齐（REPA），增强了潜在表示，使其更适用于条件去噪。随后，标准的 DiT 在该潜在空间中执行流匹配，其架构与视觉版本完全一致。我们要解决的核心挑战是获取高质量的连续文本表示：我们发现仅靠重建保真度是不够的，而通过 REPA 将潜在特征与预训练语言模型对齐，对于下游生成质量至关重要。TextLDM 在 OpenWebText2 上从头训练，在相同设置下，它显著优于先前的扩散语言模型，并达到了 GPT-2 的性能水平。我们的结果证明，视觉 DiT 方案能有效迁移至语言领域，为实现多模态生成与理解的统一扩散架构迈出了实质性的一步。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07748) 查看 PDF (https://arxiv.org/pdf/2605.07748) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07748)

在你的 agent 中获取这篇论文：

hf papers read 2605.07748

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07748 即可从此页面建立链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07748 即可从此页面建立链接。

引用此论文的项目（Spaces） 0

没有项目（Space）链接到此论文

在项目 README.md 中引用 arxiv.org/abs/2605.07748 即可从此页面建立链接。

包含此论文的合集 0

没有合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

TextLDM：利用连续潜在扩散进行语言建模

论文页面 - TextLDM：结合连续潜在扩散的语言建模

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的项目（Spaces） 0

包含此论文的合集 0

相似文章

LangFlow：连续扩散在语言建模中可与离散扩散相媲美

连续潜在扩散语言模型

通过熵门控连续比特流扩散缩小语言建模中的自回归差距

BitLM：利用位级连续扩散解锁多 Token 语言生成

CRoCoDiL: 用于语言的连续且鲁棒的条件扩散

提交意见反馈