@ZhengyangGeng: 你永远可以相信Kaiming的质量标准。写作、代码、数据、配方、检查点…… https://github.com/PeppaKing8/minit2i-…

X AI KOLs Timeline 模型

摘要

MiniT2I 是一个极简的直接RGB文本到图像生成器,使用像素空间MM-JiT去噪器,结合流匹配和冻结的FLAN-T5-Large文本令牌,并开源了JAX/Flax和PyTorch实现以及检查点。

你永远可以相信Kaiming的质量标准。写作、代码、数据、配方、检查点…… https://github.com/PeppaKing8/minit2i-jax… https://github.com/Hope7Happiness/minit2i-torch… 与所有本科生合作非常愉快!他们简直就是组里的“博士后”。@kevinxbwang2007 @Hope7Happiness @Lyy_iiis 带带弟弟
查看原文
查看缓存全文

缓存时间: 2026/06/18 08:12

MiniT2I:文本到图像生成的极简基线

相似文章

Nano Banana 终于被取代。GPT-Image 2.0 全面评测

YouTube AI Channels

GPT Image 2.0 正式发布,其在文本渲染、逻辑推理以及复杂提示词遵循能力方面均优于竞品。本文重点介绍了通过使用“photorealism”(照片级真实感)关键词及 4K API 选项等特定技巧,以实现高质量、逼真效果的方法。

@QingQ77: 从0训练一个0.1B的端到端全模态模型,一个权重搞定文字、语音、图片输入,输出文字和流式语音。 https://github.com/jingyaogong/minimind-o… MiniMind-O 是一个只有0.1B参数的全模态模型…

X AI KOLs Timeline

MiniMind-O 发布了一个仅 0.1B 参数的端到端全模态模型,支持文本、语音和图片输入及流式语音输出。该项目开源了代码、权重、训练数据和技术报告,强调在普通 GPU 上即可快速训练和推理。

这就是 ChatGPT Images 2.0

YouTube AI Channels

OpenAI 发布 Imagen 2.0,这款 AI 图像生成器可以联网、推理、精准渲染文字,并一次性输出多张 2K 分辨率的多语言图像。