标签
展示了用AI将世界杯视频转化为超燃日漫画风的应用,来自Instagram用户leonrdewa。
Boogu-Image-0.1 是一个基于 Apache-2.0 开源协议的统一图像生成与编辑模型家族,包含文本到图像、快速生成、编辑以及中英文文本渲染等变体,作为研究项目发布于 Hugging Face。
Mistral AI 推出免费套餐,提供自家 SOTA 大模型、500 条记忆、图片生成、项目分组及 40+ 企业连接器,仅需验证手机号即可领取。
UniAR提出了一个统一的自回归框架,使用单个离散视觉分词器桥接视觉理解与生成,在图像生成和编辑方面取得了最佳成果。
一种名为频谱强制(Spectral Forcing)的新技术,将时间条件化的二维离散余弦变换(2D-DCT)低通算子应用于像素空间扩散模型,通过显式分离信号与噪声提升效率,在ImageNet及文生图任务上超越基线方法。
斯坦福和字节跳动推出 W-Flow,一种单步生成模型,利用 Wasserstein 梯度流实现了最先进的单步 ImageNet 256x256 生成(FID 1.29),采样速度比多步扩散模型快 100 倍。
埃隆·马斯克宣布最新的Grok Imagine,一款AI图像生成模型,演示快速生成剑斗场景。
InterleaveThinker 引入了一种多智能体流水线,包含规划器和评论家智能体,使现有图像生成器具备交错文本-图像生成能力,其性能与最先进模型相当,并提升了推理基准测试成绩。
本文介绍了Z-Image Turbo++,这是一个两步图像生成模型,通过使用分布对齐的对抗学习、步骤解耦参数化以及带有迭代正则化的端到端训练,从八步教师模型中蒸馏而来,旨在缩小与多步生成之间的质量差距。
一位珠宝设计师寻求建议,希望构建一个AI智能体来自动化创意工作流程中的重复性环节,例如概念验证、提示词生成和文件整理,而不仅仅是生成想法。
一个面向Ideogram 4的逼真引擎模型,托管在Hugging Face上,无跟踪下载或推理提供商支持。
详细总结了使用Codex工具的8个高频场景,包括配图、整理磁盘、转Slides、处理会议纪要、连接飞书和微信读书、部署网站以及处理公司日常事务,展示了AI助手在实际工作与生活中的多种应用。
IDEAL提出了一种用于离散表示自编码的深度对齐框架,联合对齐量化令牌与浅层和深层VFM特征,以实现卓越的重建和生成性能。
本文介绍了i1,一个3B参数的文本到图像扩散模型,在性能上与领先的闭源模型竞争,同时完全开放(权重、数据、代码)。它提供了来自300多项控制实验的见解,并为开放研究提供了实用配方。
ARM提出了一种统一的基于离散语义标记化和强化学习优化的自回归框架,用于图像理解、生成与编辑,并展示了跨任务协同效果。
Flow-DPPO 在流匹配模型中使用散度近端约束替代比率裁剪,通过精确计算 KL 散度,提升了训练稳定性与多目标优化效果。