标签
提出了一种基于信息论的框架,用于优化扩散模型中的无分类器引导调度,在ImageNet和COCO基准上实现了条件一致性与样本多样性之间更优的权衡。
介绍了DiffusionBench,这是一个统一的基准,用于全面评估生成式扩散变换器,支持多种生成任务,并提供标准化的训练与评估。
Krea 2 是一系列用于创意图像生成的基础模型,构建于大规模数据基础设施和多阶段训练流程之上。它引入了提示扩展器和风格参考系统,以提高可操控性并实现创意探索。
Krea 2 是一个拥有120亿参数的文本到图像扩散模型,以开放权重形式在 Hugging Face 上发布,提供了 Raw(基础版)和 Turbo(后训练版)检查点。
Boogu 发布了一系列开源统一图像生成与编辑模型,包括 Base、Turbo 和 Edit 变体。
研究人员引入了NanoGen,一个用于训练和评估扩散变换器的统一框架,并提出了DiffusionBench,一个结合了ImageNet类别条件和文本到图像生成的全面基准,以更好地评估生成建模的进展。
Semantic Browsing 引入了一种方法,通过使用一个 Vision Language Model 和代理工作流,在文本到图像生成中实现基于语义决策的结构化、可解释的可控多样性。
用户使用192个提示词对本地文本到图像模型进行了全面对比,评估了文本渲染、人脸、人体解剖、空间构图等能力,结果和提示词已在imagebench.ai上公开。
作者详细介绍了从头开始预训练和后训练一个500M参数的语言模型和一个330M参数的图像生成器的过程。
发现一个创意用法:利用内嵌浏览器实现Codex Image 2的无限画布生图。
一位用户演示了为本地LLM智能体添加MCP工具用于本地图像和视频生成,实现了按需全离线免费的生成。
展示了三年来的AI进步:左侧为ModelScope,右侧为Grok Imagine 1.5。
Midjourney,以AI图像生成闻名,开发了一项被描述为MRI继任者的新技术,很可能提升医学影像能力。
FreeStyle提出了一种可扩展的双参考生成框架,利用社区LoRA挖掘构建大规模风格-内容三元组,并采用解耦机制防止内容泄露,同时引入了一个全面的基准用于评估。
本文分析了不同训练种子和采样种子下FID分数的方差,揭示了图像生成评估中显著的可重复性问题。它提出了一种新的评估协议,包括误差带和每单元最优引导调整。
一种LoRA,它适配Ideogram 4,可在仅2步且无需CFG的情况下生成高质量图像,采用新颖的连续涡轮训练方法。
Comfy-Org已为ComfyUI重新打包了Boogu-Image模型文件,包括base、edit和turbo变体,具有不同的量化格式,以及一个LoRA和文本编码器。