标签
介绍了一种高分辨率 Neural Cellular Automata,它运行在粗网格上,并使用 Local Pattern Producing Network 生成高分辨率输出,从而实现高效的程序化生成。
Ideogram 4 是一个从零开始训练的开放权重的文生图模型,支持结构化 JSON 提示、业界最佳的多语言文本渲染、边界框布局控制、调色板控制以及原生 2K 分辨率输出。
NVIDIA Spatial Intelligence Lab 提出 PiD,将 latent 扩散模型的解码环节重新设计为条件像素扩散过程,统一解码与上采样,实现低延迟高分辨率解码。
PiD 提出了一种像素扩散解码器,将潜在解码重新定义为条件像素扩散,从而在高分辨率下实现快速、高质量的图像合成,并降低计算需求。在消费级硬件上,它能在不到一秒内将潜在表示解码为 4 倍或 8 倍放大图像。
HL-OutPaint 是一个面向高分辨率长时视频的由粗到细视频外扩框架,利用全局粗粒度引导实现大空间外推,同时保持时空一致性。
微软发布了Lens,一个拥有38亿参数的基础文本到图像模型,具备高效的训练和快速的高分辨率生成能力,采用密集字幕预训练和混合分辨率学习。
L2P 论文提出了一种潜在空间到像素空间(Latent-to-Pixel)的迁移范式,该范式利用预训练的潜在扩散模型(LDM),以极低的训练开销构建高效的像素空间模型,并实现 4K 分辨率生成。
本文介绍了 LLaVA-UHD v4,该模型通过采用基于切片(slice-based)的编码和 ViT 内部早期压缩,提高了多模态大语言模型中的视觉编码效率。它在保持或提升高分辨率图像任务性能的同时,将计算成本降低了 55% 以上。
HiDream-ai 发布了 HiDream-O1-Image-Dev,这是一个拥有 80 亿参数的开源图像生成模型,采用像素级统一 Transformer 架构,无需外部 VAE。该模型在 Artificial Analysis Text to Image Arena 排行榜中位列第 8,支持高达 2,048x2,048 的超高分辨率图像生成。
HiDream-ai 已开源 HiDream-O1-Image(8B),这是一款基于像素级统一 Transformer(UiT)构建的统一图像生成基础模型,原生支持文本生成图像、图像编辑以及主体驱动的个性化生成,分辨率最高可达 2048×2048,无需外部 VAE 或独立文本编码器。该模型在 Artificial Analysis 文生图竞技场中首次亮相即位列第 8,是目前领先的开放权重文生图模型之一。
SwiftI2V 是一个新颖的高效框架,用于高分辨率图像到视频的生成,它采用条件分段生成技术,在显著降低计算成本的同时实现了 2K 分辨率的合成。该框架使得在单个消费级或数据中心 GPU 上进行实用的生成成为可能,同时保持了输入的保真度。