@ZhengyangGeng: 你永远可以相信Kaiming的质量标准。写作、代码、数据、配方、检查点…… https://github.com/PeppaKing8/minit2i-…

X AI KOLs Timeline 2026/06/17 22:16 模型

text-to-image diffusion open-source jax pytorch flan-t5 minit2i

摘要

MiniT2I 是一个极简的直接RGB文本到图像生成器，使用像素空间MM-JiT去噪器，结合流匹配和冻结的FLAN-T5-Large文本令牌，并开源了JAX/Flax和PyTorch实现以及检查点。

你永远可以相信Kaiming的质量标准。写作、代码、数据、配方、检查点…… https://github.com/PeppaKing8/minit2i-jax… https://github.com/Hope7Happiness/minit2i-torch… 与所有本科生合作非常愉快！他们简直就是组里的“博士后”。@kevinxbwang2007 @Hope7Happiness @Lyy_iiis 带带弟弟

查看原文

查看缓存全文

缓存时间: 2026/06/18 08:12

MiniT2I：文本到图像生成的极简基线

相似文章

@jun_song：正在尝试将 Kimi-K2.6 (1T) 适配到 128GB Mac 上。目标是达到 40tok/s，并尽可能减少质量损失。

X AI KOLs Timeline

一位开发者正在优化 Kimi-K2.6 (1T) 模型，使其能在 128GB Mac 上高效运行，目标速度为 40 tok/s，同时尽可能降低质量损失。

@HuggingPapers: 阿里巴巴发布Qwen-Image-Flash，少步蒸馏超越目标，数据组成、教师指导和…

X AI KOLs Following

阿里巴巴发布了Qwen-Image-Flash，这是一种少步蒸馏模型，用于快速、高质量的文本到图像生成和指令引导编辑，利用了数据组成、教师指导和任务混合。

Nano Banana 终于被取代。GPT-Image 2.0 全面评测

YouTube AI Channels

GPT Image 2.0 正式发布，其在文本渲染、逻辑推理以及复杂提示词遵循能力方面均优于竞品。本文重点介绍了通过使用“photorealism”（照片级真实感）关键词及 4K API 选项等特定技巧，以实现高质量、逼真效果的方法。

@QingQ77: 从0训练一个0.1B的端到端全模态模型，一个权重搞定文字、语音、图片输入，输出文字和流式语音。 https://github.com/jingyaogong/minimind-o… MiniMind-O 是一个只有0.1B参数的全模态模型…

X AI KOLs Timeline

MiniMind-O 发布了一个仅 0.1B 参数的端到端全模态模型，支持文本、语音和图片输入及流式语音输出。该项目开源了代码、权重、训练数据和技术报告，强调在普通 GPU 上即可快速训练和推理。

这就是 ChatGPT Images 2.0

YouTube AI Channels

OpenAI 发布 Imagen 2.0，这款 AI 图像生成器可以联网、推理、精准渲染文字，并一次性输出多张 2K 分辨率的多语言图像。

提交意见反馈