TextLDM:利用连续潜在扩散进行语言建模

Hugging Face Daily Papers 论文

摘要

本文介绍了 TextLDM,这是一种通过将离散标记映射到连续潜在空间,从而将视觉潜在扩散Transformer适配于语言建模的方法。研究表明,该方法在表示对齐的增强下,达到了与 GPT-2 相当的性能,并统一了视觉与文本生成的架构。

在 VAE 潜在空间中通过流匹配(flow matching)训练的扩散 Transformer(DiT)已经统一了图像和视频的视觉生成。迈向单一架构以同时涵盖生成(视觉合成)和理解(文本生成)的自然下一步,是将该框架应用于语言建模。我们提出了 TextLDM,该方法在极小的架构修改下,将视觉潜在扩散的方案迁移至文本生成。基于 Transformer 的 VAE 将离散标记映射为连续潜在表示,并通过与冻结的预训练语言模型进行表示对齐(REPA)进行增强,以生成对条件去噪有效的表示。随后,标准的 DiT 在此潜在空间中执行流匹配,其架构与视觉版本完全相同。我们要解决的核心挑战是获取高质量的连续文本表示:我们发现仅依靠重建保真度是不够的,通过 REPA 将潜在特征与预训练语言模型对齐对于下游生成质量至关重要。TextLDM 在 OpenWebText2 上从头训练,显著优于先前的扩散语言模型,并在相同设置下达到了 GPT-2 的性能水平。我们的结果表明,视觉 DiT 的方案可以有效地迁移到语言领域,为实现多模态生成与理解的统一扩散架构迈出了实质性的一步。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/11 07:20

论文页面 - TextLDM:结合连续潜在扩散的语言建模

来源: https://huggingface.co/papers/2605.07748 作者:

,

,

,

,

,

,

,

,

,

摘要

TextLDM 通过将离散 token 映射为连续潜在变量,并利用表示对齐(Representation Alignment)来改善文本生成质量,从而将视觉潜在扩散 Transformer 适配用于语言建模。

在 VAE 潜在空间中使用流匹配(flow matching)训练的扩散 Transformer(Diffusion Transformers, DiT)统一了图像和视频的视觉生成。迈向一个既能生成(视觉合成)又能理解(文本生成)的统一架构的自然下一步,是将此框架应用于语言建模。我们提出了 TextLDM,它以最小的架构修改将视觉潜在扩散方案迁移到文本生成。基于 Transformer 的 VAE 将离散 token 映射为连续潜在变量,并通过与冻结的预训练语言模型进行表示对齐(REPA),增强了潜在表示,使其更适用于条件去噪。随后,标准的 DiT 在该潜在空间中执行流匹配,其架构与视觉版本完全一致。我们要解决的核心挑战是获取高质量的连续文本表示:我们发现仅靠重建保真度是不够的,而通过 REPA 将潜在特征与预训练语言模型对齐,对于下游生成质量至关重要。TextLDM 在 OpenWebText2 上从头训练,在相同设置下,它显著优于先前的扩散语言模型,并达到了 GPT-2 的性能水平。我们的结果证明,视觉 DiT 方案能有效迁移至语言领域,为实现多模态生成与理解的统一扩散架构迈出了实质性的一步。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07748) 查看 PDF (https://arxiv.org/pdf/2605.07748) 添加到合集 (https://huggingface.co/login?next=%2Fpapers%2F2605.07748)

在你的 agent 中获取这篇论文:

hf papers read 2605.07748

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2605.07748 即可从此页面建立链接。

引用此论文的数据集 0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.07748 即可从此页面建立链接。

引用此论文的项目(Spaces) 0

没有项目(Space)链接到此论文

在项目 README.md 中引用 arxiv.org/abs/2605.07748 即可从此页面建立链接。

包含此论文的合集 0

没有合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

相似文章

LangFlow:连续扩散在语言建模中可与离散扩散相媲美

Hugging Face Daily Papers

LangFlow提出了首个可与离散扩散方法相媲美的连续扩散语言模型,挑战了长期以来认为连续扩散在语言建模中劣于离散扩散的观点。该工作引入了基于最优Gumbel噪声调度等关键要素,并展示了与离散扩散基线相比具有竞争力的困惑度和迁移学习性能。

连续潜在扩散语言模型

Hugging Face Daily Papers

Cola DLM 是一种分层潜在扩散语言模型,它通过文本到潜空间的映射以及条件解码,实现高效且非自回归的文本生成。