@ZhengyangGeng: 你永远可以相信Kaiming的质量标准。写作、代码、数据、配方、检查点…… https://github.com/PeppaKing8/minit2i-…
摘要
MiniT2I 是一个极简的直接RGB文本到图像生成器,使用像素空间MM-JiT去噪器,结合流匹配和冻结的FLAN-T5-Large文本令牌,并开源了JAX/Flax和PyTorch实现以及检查点。
你永远可以相信Kaiming的质量标准。写作、代码、数据、配方、检查点…… https://github.com/PeppaKing8/minit2i-jax… https://github.com/Hope7Happiness/minit2i-torch… 与所有本科生合作非常愉快!他们简直就是组里的“博士后”。@kevinxbwang2007 @Hope7Happiness @Lyy_iiis 带带弟弟
查看缓存全文
缓存时间: 2026/06/18 08:12
MiniT2I:文本到图像生成的极简基线
相似文章
@jun_song:正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。目标是达到 40tok/s,并尽可能减少质量损失。
一位开发者正在优化 Kimi-K2.6 (1T) 模型,使其能在 128GB Mac 上高效运行,目标速度为 40 tok/s,同时尽可能降低质量损失。
@HuggingPapers: 阿里巴巴发布Qwen-Image-Flash,少步蒸馏超越目标,数据组成、教师指导和…
阿里巴巴发布了Qwen-Image-Flash,这是一种少步蒸馏模型,用于快速、高质量的文本到图像生成和指令引导编辑,利用了数据组成、教师指导和任务混合。
Nano Banana 终于被取代。GPT-Image 2.0 全面评测
GPT Image 2.0 正式发布,其在文本渲染、逻辑推理以及复杂提示词遵循能力方面均优于竞品。本文重点介绍了通过使用“photorealism”(照片级真实感)关键词及 4K API 选项等特定技巧,以实现高质量、逼真效果的方法。
@QingQ77: 从0训练一个0.1B的端到端全模态模型,一个权重搞定文字、语音、图片输入,输出文字和流式语音。 https://github.com/jingyaogong/minimind-o… MiniMind-O 是一个只有0.1B参数的全模态模型…
MiniMind-O 发布了一个仅 0.1B 参数的端到端全模态模型,支持文本、语音和图片输入及流式语音输出。该项目开源了代码、权重、训练数据和技术报告,强调在普通 GPU 上即可快速训练和推理。
这就是 ChatGPT Images 2.0
OpenAI 发布 Imagen 2.0,这款 AI 图像生成器可以联网、推理、精准渲染文字,并一次性输出多张 2K 分辨率的多语言图像。