STARFlow2：连接语言模型与归一化流以实现统一的多模态生成

Hugging Face Daily Papers 2026/05/08 00:00 论文

摘要

STARFlow2 是一项新的研究论文，介绍了一种将语言模型与自回归归一化流相结合的架构，用于统一的多模态生成。它通过使用共享的因果掩码机制处理交错的文本-图像序列，解决了现有系统中的结构不匹配问题。

深度生成模型在文本和视觉领域取得了 rapid 进展，这推动了能够理解、推理并生成交错文本-图像序列的统一多模态系统的发展。大多数现有方法将自回归语言建模与基于扩散的图像生成器相结合，从而继承了因果文本生成与迭代视觉去噪之间的结构不匹配。我们观察到，自回归归一化流本质上就是自回归 Transformer——它们与大型语言模型（LLM）共享相同的因果掩码、KV 缓存机制以及从左到右的结构——这使得它们成为实现真正统一多模态生成最自然的范式。我们提出了 STARFlow2，它基于 Pretzel 架构，通过残差跳跃连接将预训练的 VLM 流与 TarFlow 流垂直交错，两者均在相同的因果掩码下运行。结合深浅流设计和统一的 FAE 潜在空间，STARFlow2 实现了缓存友好的交错生成，使得文本和视觉输出可以直接进入 KV 缓存而无需重新编码。实验结果表明，STARFlow2 在图像生成和多模态理解基准测试中表现出色，验证了自回归流作为统一多模态建模可行基础的有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - STARFlow2：通过桥接语言模型与归一化流实现统一多模态生成

来源：https://huggingface.co/papers/2605.08029

摘要

基于 Transformer 架构的自回归归一化流（autoregressive normalizing flows）通过共享因果掩码（causal masking）和 KV-cache 机制，对齐文本与图像处理流程，从而实现统一的多模态生成。

深度生成模型在文本和视觉领域均取得了快速发展，这促使人们构建能够理解、推理并生成交错式“文本-图像”序列的统一多模态系统。大多数现有方法将自回归语言建模（https://huggingface.co/papers?q=autoregressive%20language%20modeling）与基于扩散的图像生成器（https://huggingface.co/papers?q=diffusion-based%20image%20generators）相结合，从而继承了因果文本生成与迭代视觉去噪之间的结构性不匹配。我们观察到，自回归归一化流（https://huggingface.co/papers?q=autoregressive%20normalizing%20flows）本质上是自回归 Transformer（https://huggingface.co/papers?q=Transformer）——它们与大型语言模型（LLMs）共享相同的因果掩码（https://huggingface.co/papers?q=causal%20mask）、KV-cache（https://huggingface.co/papers?q=KV-cache）机制以及从左到右的结构——这使得它们成为实现真正统一多模态生成最自然的范式。

我们提出了 STARFlow2，它建立在 Pretzel 架构（https://huggingface.co/papers?q=Pretzel%20architecture）之上，通过残差跳跃连接（residual skip connections）在垂直方向上交错一个预训练的 VLM 流（https://huggingface.co/papers?q=VLM%20stream）和一个 TarFlow 流（https://huggingface.co/papers?q=TarFlow%20stream），两者均在相同的因果掩码（https://huggingface.co/papers?q=causal%20mask）下运行。结合深-浅流设计（deep-shallow flow design）（https://huggingface.co/papers?q=deep-shallow%20flow%20design）和统一的 FAE 潜空间（unified FAE latent space）（https://huggingface.co/papers?q=unified%20FAE%20latent%20space），STARFlow2 实现了支持缓存的交错式生成（interleaved generation）（https://huggingface.co/papers?q=interleaved%20generation），其中文本和视觉输出无需重新编码即可直接进入 KV-cache（https://huggingface.co/papers?q=KV-cache）。实验表明，该方法在图像生成和多模态理解基准测试中均表现出强大的性能，验证了自回归归一化流作为统一多模态建模可行基础的价值。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08029) 查看 PDF (https://arxiv.org/pdf/2605.08029) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.08029)

在你的 agent 中获取这篇论文：

hf papers read 2605\.08029

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加至收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

STARFlow2：连接语言模型与归一化流以实现统一的多模态生成

论文页面 - STARFlow2：通过桥接语言模型与归一化流实现统一多模态生成

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

@JohnNguyen: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……

NaturalFlow：减少同时语音翻译中干扰性停顿以促进自然语音流畅

FlowLM: 基于扩散-流适配的少步语言建模

基于超球面流的语言建模

随流而动：文本到图像模型中文本词元间的信息流动

提交意见反馈

论文页面 - STARFlow2：通过桥接语言模型与归一化流实现统一多模态生成

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的收藏集 0

相似文章

@__JohnNguyen__: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……

NaturalFlow：减少同时语音翻译中干扰性停顿以促进自然语音流畅

FlowLM: 基于扩散-流适配的少步语言建模

基于超球面流的语言建模

随流而动：文本到图像模型中文本词元间的信息流动

提交意见反馈

@JohnNguyen: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……