标签
Krea 2 是一个拥有120亿参数的文本到图像扩散模型,以开放权重形式在 Hugging Face 上发布,提供了 Raw(基础版)和 Turbo(后训练版)检查点。
Boogu 发布了一系列开源统一图像生成与编辑模型,包括 Base、Turbo 和 Edit 变体。
用户使用192个提示词对本地文本到图像模型进行了全面对比,评估了文本渲染、人脸、人体解剖、空间构图等能力,结果和提示词已在imagebench.ai上公开。
作者详细介绍了从头开始预训练和后训练一个500M参数的语言模型和一个330M参数的图像生成器的过程。
发现一个创意用法:利用内嵌浏览器实现Codex Image 2的无限画布生图。
一位用户演示了为本地LLM智能体添加MCP工具用于本地图像和视频生成,实现了按需全离线免费的生成。
展示了三年来的AI进步:左侧为ModelScope,右侧为Grok Imagine 1.5。
Midjourney,以AI图像生成闻名,开发了一项被描述为MRI继任者的新技术,很可能提升医学影像能力。
FreeStyle提出了一种可扩展的双参考生成框架,利用社区LoRA挖掘构建大规模风格-内容三元组,并采用解耦机制防止内容泄露,同时引入了一个全面的基准用于评估。
本文分析了不同训练种子和采样种子下FID分数的方差,揭示了图像生成评估中显著的可重复性问题。它提出了一种新的评估协议,包括误差带和每单元最优引导调整。
一种LoRA,它适配Ideogram 4,可在仅2步且无需CFG的情况下生成高质量图像,采用新颖的连续涡轮训练方法。
Comfy-Org已为ComfyUI重新打包了Boogu-Image模型文件,包括base、edit和turbo变体,具有不同的量化格式,以及一个LoRA和文本编码器。
这篇ICML 2026 spotlight立场论文识别了图像生成对齐中的一个失败模式:美学偏好优化会覆盖用户的明确意图,将其称为'逆向对齐',并在反美学提示上进行了测试。
解释为什么扩散模型对图像有效:低频频谱成分占主导,因此去噪先恢复粗略结构,再恢复细节——类似于频谱自回归。
展示了用AI将世界杯视频转化为超燃日漫画风的应用,来自Instagram用户leonrdewa。
Boogu-Image-0.1 是一个基于 Apache-2.0 开源协议的统一图像生成与编辑模型家族,包含文本到图像、快速生成、编辑以及中英文文本渲染等变体,作为研究项目发布于 Hugging Face。
Mistral AI 推出免费套餐,提供自家 SOTA 大模型、500 条记忆、图片生成、项目分组及 40+ 企业连接器,仅需验证手机号即可领取。