STARFlow2:连接语言模型与归一化流以实现统一的多模态生成

Hugging Face Daily Papers 论文

摘要

STARFlow2 是一项新的研究论文,介绍了一种将语言模型与自回归归一化流相结合的架构,用于统一的多模态生成。它通过使用共享的因果掩码机制处理交错的文本-图像序列,解决了现有系统中的结构不匹配问题。

深度生成模型在文本和视觉领域取得了 rapid 进展,这推动了能够理解、推理并生成交错文本-图像序列的统一多模态系统的发展。大多数现有方法将自回归语言建模与基于扩散的图像生成器相结合,从而继承了因果文本生成与迭代视觉去噪之间的结构不匹配。我们观察到,自回归归一化流本质上就是自回归 Transformer——它们与大型语言模型(LLM)共享相同的因果掩码、KV 缓存机制以及从左到右的结构——这使得它们成为实现真正统一多模态生成最自然的范式。我们提出了 STARFlow2,它基于 Pretzel 架构,通过残差跳跃连接将预训练的 VLM 流与 TarFlow 流垂直交错,两者均在相同的因果掩码下运行。结合深浅流设计和统一的 FAE 潜在空间,STARFlow2 实现了缓存友好的交错生成,使得文本和视觉输出可以直接进入 KV 缓存而无需重新编码。实验结果表明,STARFlow2 在图像生成和多模态理解基准测试中表现出色,验证了自回归流作为统一多模态建模可行基础的有效性。
查看原文
查看缓存全文

缓存时间: 2026/05/11 02:42

论文页面 - STARFlow2:通过桥接语言模型与归一化流实现统一多模态生成

来源:https://huggingface.co/papers/2605.08029

摘要

基于 Transformer 架构的自回归归一化流(autoregressive normalizing flows)通过共享因果掩码(causal masking)和 KV-cache 机制,对齐文本与图像处理流程,从而实现统一的多模态生成。

深度生成模型在文本和视觉领域均取得了快速发展,这促使人们构建能够理解、推理并生成交错式“文本-图像”序列的统一多模态系统。大多数现有方法将自回归语言建模(https://huggingface.co/papers?q=autoregressive%20language%20modeling)与基于扩散的图像生成器(https://huggingface.co/papers?q=diffusion-based%20image%20generators)相结合,从而继承了因果文本生成与迭代视觉去噪之间的结构性不匹配。我们观察到,自回归归一化流(https://huggingface.co/papers?q=autoregressive%20normalizing%20flows)本质上是自回归 Transformer(https://huggingface.co/papers?q=Transformer)——它们与大型语言模型(LLMs)共享相同的因果掩码(https://huggingface.co/papers?q=causal%20mask)、KV-cache(https://huggingface.co/papers?q=KV-cache)机制以及从左到右的结构——这使得它们成为实现真正统一多模态生成最自然的范式。

我们提出了 STARFlow2,它建立在 Pretzel 架构(https://huggingface.co/papers?q=Pretzel%20architecture)之上,通过残差跳跃连接(residual skip connections)在垂直方向上交错一个预训练的 VLM 流(https://huggingface.co/papers?q=VLM%20stream)和一个 TarFlow 流(https://huggingface.co/papers?q=TarFlow%20stream),两者均在相同的因果掩码(https://huggingface.co/papers?q=causal%20mask)下运行。结合深-浅流设计(deep-shallow flow design)(https://huggingface.co/papers?q=deep-shallow%20flow%20design)和统一的 FAE 潜空间(unified FAE latent space)(https://huggingface.co/papers?q=unified%20FAE%20latent%20space),STARFlow2 实现了支持缓存的交错式生成(interleaved generation)(https://huggingface.co/papers?q=interleaved%20generation),其中文本和视觉输出无需重新编码即可直接进入 KV-cache(https://huggingface.co/papers?q=KV-cache)。实验表明,该方法在图像生成和多模态理解基准测试中均表现出强大的性能,验证了自回归归一化流作为统一多模态建模可行基础的价值。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08029) 查看 PDF (https://arxiv.org/pdf/2605.08029) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.08029)

在你的 agent 中获取这篇论文:

hf papers read 2605\.08029

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。

包含此论文的收藏集 0

没有收藏集包含此论文

将此论文添加至收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。

相似文章

FlowLM: 基于扩散-流适配的少步语言建模

arXiv cs.CL

FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。

基于超球面流的语言建模

arXiv cs.LG

本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。

随流而动:文本到图像模型中文本词元间的信息流动

arXiv cs.CL

本文研究了文本到图像模型中语义信息在文本词元间的分布情况,发现信息集中程度和跨条目交互显著影响图像生成的语义对齐。作者采用修补技术证明,在编码阶段进行简单干预即可提升对齐质量。