image-generation

#image-generation

统一多模态自回归建模：共享上下文-视觉分词器是实现统一的关键

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

UniAR提出了一个统一的自回归框架，使用单个离散视觉分词器桥接视觉理解与生成，在图像生成和编辑方面取得了最佳成果。

0 人收藏 0 人点赞

#image-generation

显露信号，隐藏噪声：像素空间扩散的频谱强制

Hugging Face Daily Papers ↗ · 2026-06-16 缓存

一种名为频谱强制（Spectral Forcing）的新技术，将时间条件化的二维离散余弦变换（2D-DCT）低通算子应用于像素空间扩散模型，通过显式分离信号与噪声提升效率，在ImageNet及文生图任务上超越基线方法。

0 人收藏 0 人点赞

#image-generation

@jiqizhixin：如果只需要一步就能生成高质量图像，而不是数百步？斯坦福和字节跳动推出 W-Flow……

X AI KOLs Timeline ↗ · 2026-06-15 缓存

斯坦福和字节跳动推出 W-Flow，一种单步生成模型，利用 Wasserstein 梯度流实现了最先进的单步 ImageNet 256x256 生成（FID 1.29），采样速度比多步扩散模型快 100 倍。

0 人收藏 0 人点赞

#image-generation

AgentBrush

Product Hunt ↗ · 2026-06-15

AgentBrush 是一个为编程代理添加图像生成能力的工具。

0 人收藏 0 人点赞

#image-generation

LLM Gateway Chat

Product Hunt ↗ · 2026-06-15

LLM Gateway Chat 是一个平台，提供对多种AI模型的访问，用于聊天、图像、视频和音频生成。

0 人收藏 0 人点赞

#image-generation

@elonmusk：试试最新的Grok Imagine！

X AI KOLs Timeline ↗ · 2026-06-14 缓存

埃隆·马斯克宣布最新的Grok Imagine，一款AI图像生成模型，演示快速生成剑斗场景。

0 人收藏 0 人点赞

#image-generation

InterleaveThinker: 增强智能体交错生成

Hugging Face Daily Papers ↗ · 2026-06-11 缓存

InterleaveThinker 引入了一种多智能体流水线，包含规划器和评论家智能体，使现有图像生成器具备交错文本-图像生成能力，其性能与最先进模型相当，并提升了推理基准测试成绩。

0 人收藏 0 人点赞

#image-generation

通过教师对齐的端到端蒸馏实现高保真两步图像生成

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

本文介绍了Z-Image Turbo++，这是一个两步图像生成模型，通过使用分布对齐的对抗学习、步骤解耦参数化以及带有迭代正则化的端到端训练，从八步教师模型中蒸馏而来，旨在缩小与多步生成之间的质量差距。

0 人收藏 0 人点赞

#image-generation

如何构建一个能帮助管理创意工作流程的智能体，而不仅仅是提供想法？

Reddit r/openclaw ↗ · 2026-06-09

一位珠宝设计师寻求建议，希望构建一个AI智能体来自动化创意工作流程中的重复性环节，例如概念验证、提示词生成和文件整理，而不仅仅是生成想法。

0 人收藏 0 人点赞

#image-generation

RazzzHF/Realism_Engine_Ideogram_4

Hugging Face Models Trending ↗ · 2026-06-09 缓存

一个面向Ideogram 4的逼真引擎模型，托管在Hugging Face上，无跟踪下载或推理提供商支持。

0 人收藏 0 人点赞

#image-generation

Notra 图像生成

Product Hunt ↗ · 2026-06-09

Notra 是一个工具，可以将合并的拉取请求转化为符合品牌形象的市场营销视觉素材。

0 人收藏 0 人点赞

#image-generation

@xiaogaifun: https://x.com/xiaogaifun/status/2064268648601268540

X AI KOLs Timeline ↗ · 2026-06-09 缓存

详细总结了使用Codex工具的8个高频场景，包括配图、整理磁盘、转Slides、处理会议纪要、连接飞书和微信读书、部署网站以及处理公司日常事务，展示了AI助手在实际工作与生活中的多种应用。

0 人收藏 0 人点赞

#image-generation

IDEAL：深度对齐实现离散表示自编码器

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

IDEAL提出了一种用于离散表示自编码的深度对齐框架，联合对齐量化令牌与浅层和深层VFM特征，以实现卓越的重建和生成性能。

0 人收藏 0 人点赞

#image-generation

i1：一个简单且完全开放的强文本到图像模型配方

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

本文介绍了i1，一个3B参数的文本到图像扩散模型，在性能上与领先的闭源模型竞争，同时完全开放（权重、数据、代码）。它提供了来自300多项控制实验的见解，并为开放研究提供了实用配方。

0 人收藏 0 人点赞

#image-generation

ARM：采用统一离散表示的自回归大型多模态模型

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

ARM提出了一种统一的基于离散语义标记化和强化学习优化的自回归框架，用于图像理解、生成与编辑，并展示了跨任务协同效果。

0 人收藏 0 人点赞

#image-generation

Flow-DPPO: 针对流匹配模型的散度近端策略优化

Hugging Face Daily Papers ↗ · 2026-06-09 缓存

Flow-DPPO 在流匹配模型中使用散度近端约束替代比率裁剪，通过精确计算 KL 散度，提升了训练稳定性与多目标优化效果。

0 人收藏 0 人点赞

#image-generation

Reve 2.0

Product Hunt ↗ · 2026-06-05

Reve 2.0 是一款产品，能够通过基于布局的控制生成和编辑4K图像。

0 人收藏 0 人点赞

#image-generation

探索视觉嵌入

Hacker News Top ↗ · 2026-06-05 缓存

本文通过生成与特定嵌入方向对应的图像，利用梯度优化和增强策略来反转模型，探索了DINOv3视觉嵌入。

0 人收藏 0 人点赞

#image-generation

利用自引导标记化平衡图像压缩与生成

arXiv cs.LG ↗ · 2026-06-05 缓存

介绍了SelfBootTok，一种自引导标记化方法，它将全局和局部信息分离，使生成器计算量减少约40%，仅用64个标记即实现了1.56的gFID新最先进水平。

0 人收藏 0 人点赞

#image-generation

Horus 图像生成来了！🤩📷

Reddit r/artificial ↗ · 2026-06-05

TokenAI 发布了其首个文生图模型 Horus Lens 1.0，标志着埃及 AI 生态系统迈出重要一步。

0 人收藏 0 人点赞

image-generation

提交意见反馈