STARFlow2:连接语言模型与归一化流以实现统一的多模态生成
摘要
STARFlow2 是一项新的研究论文,介绍了一种将语言模型与自回归归一化流相结合的架构,用于统一的多模态生成。它通过使用共享的因果掩码机制处理交错的文本-图像序列,解决了现有系统中的结构不匹配问题。
查看缓存全文
缓存时间: 2026/05/11 02:42
论文页面 - STARFlow2:通过桥接语言模型与归一化流实现统一多模态生成
来源:https://huggingface.co/papers/2605.08029
摘要
基于 Transformer 架构的自回归归一化流(autoregressive normalizing flows)通过共享因果掩码(causal masking)和 KV-cache 机制,对齐文本与图像处理流程,从而实现统一的多模态生成。
深度生成模型在文本和视觉领域均取得了快速发展,这促使人们构建能够理解、推理并生成交错式“文本-图像”序列的统一多模态系统。大多数现有方法将自回归语言建模(https://huggingface.co/papers?q=autoregressive%20language%20modeling)与基于扩散的图像生成器(https://huggingface.co/papers?q=diffusion-based%20image%20generators)相结合,从而继承了因果文本生成与迭代视觉去噪之间的结构性不匹配。我们观察到,自回归归一化流(https://huggingface.co/papers?q=autoregressive%20normalizing%20flows)本质上是自回归 Transformer(https://huggingface.co/papers?q=Transformer)——它们与大型语言模型(LLMs)共享相同的因果掩码(https://huggingface.co/papers?q=causal%20mask)、KV-cache(https://huggingface.co/papers?q=KV-cache)机制以及从左到右的结构——这使得它们成为实现真正统一多模态生成最自然的范式。
我们提出了 STARFlow2,它建立在 Pretzel 架构(https://huggingface.co/papers?q=Pretzel%20architecture)之上,通过残差跳跃连接(residual skip connections)在垂直方向上交错一个预训练的 VLM 流(https://huggingface.co/papers?q=VLM%20stream)和一个 TarFlow 流(https://huggingface.co/papers?q=TarFlow%20stream),两者均在相同的因果掩码(https://huggingface.co/papers?q=causal%20mask)下运行。结合深-浅流设计(deep-shallow flow design)(https://huggingface.co/papers?q=deep-shallow%20flow%20design)和统一的 FAE 潜空间(unified FAE latent space)(https://huggingface.co/papers?q=unified%20FAE%20latent%20space),STARFlow2 实现了支持缓存的交错式生成(interleaved generation)(https://huggingface.co/papers?q=interleaved%20generation),其中文本和视觉输出无需重新编码即可直接进入 KV-cache(https://huggingface.co/papers?q=KV-cache)。实验表明,该方法在图像生成和多模态理解基准测试中均表现出强大的性能,验证了自回归归一化流作为统一多模态建模可行基础的价值。
查看 arXiv 页面 (https://arxiv.org/abs/2605.08029) 查看 PDF (https://arxiv.org/pdf/2605.08029) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.08029)
在你的 agent 中获取这篇论文:
hf papers read 2605\.08029
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.08029 即可从此页面建立链接。
包含此论文的收藏集 0
没有收藏集包含此论文
将此论文添加至收藏集 (https://huggingface.co/new-collection) 即可从此页面建立链接。
相似文章
@__JohnNguyen__: 今天我们发布了 CVPR 2026 论文 Flowception 的代码。Flowception 在完全双向序列模型和自回归生成之间架起了桥梁……
Meta 的 FAIR 团队发布了 Flowception 的代码,这是 CVPR 2026 的一篇论文,介绍了一种非自回归视频生成框架。该框架通过交错帧插入与连续去噪,减少了误差累积和计算成本。
NaturalFlow:减少同时语音翻译中干扰性停顿以促进自然语音流畅
本文介绍了NaturalFlow,一种流畅性感知的优化框架,它通过利用模型内部信号减少同时语音翻译中的干扰性停顿,在低延迟和自然语音流畅之间取得平衡。
FlowLM: 基于扩散-流适配的少步语言建模
FlowLM 提出了一种流匹配语言模型,通过高效微调从预训练扩散模型衍生而来,能够实现高质量少步文本生成,其效果可与2000步扩散采样相媲美,而训练轮次更少。
基于超球面流的语言建模
本文介绍了 S-FLM,一种新颖的基于流的语言模型。该模型在超球面潜在空间中运行,旨在解决现有离散扩散模型和连续流模型的计算成本高昂及语义表达受限等问题。
随流而动:文本到图像模型中文本词元间的信息流动
本文研究了文本到图像模型中语义信息在文本词元间的分布情况,发现信息集中程度和跨条目交互显著影响图像生成的语义对齐。作者采用修补技术证明,在编码阶段进行简单干预即可提升对齐质量。