microsoft/Lens-Turbo

Hugging Face Models Trending 2026/05/15 06:06 模型

text-to-image foundational-model efficient-training high-resolution microsoft open-source diffusion

摘要

微软发布了Lens，一个拥有38亿参数的基础文本到图像模型，具备高效的训练和快速的高分辨率生成能力，采用密集字幕预训练和混合分辨率学习。

任务: text-to-image 标签: diffusers, safetensors, text-to-image, en, arxiv:2605.21573, license:mit, diffusers:LensPipeline, region:us

查看原文

查看缓存全文

缓存时间: 2026/05/25 07:54

microsoft/Lens-Turbo · Hugging Face

来源: https://huggingface.co/microsoft/Lens-Turbo

https://huggingface.co/microsoft/Lens-Turbo#lens-rethinking-training-efficiency-for-foundational-text-to-image-modelsLens：重新思考基础文生图模型的训练效率

Lens 预告图

贡献者（按字母顺序）： 郭百宁，罗翀，陈东†，陈东东，魏方云†，李骥，包建民，张嘉伟*，赵金晶*，石磊，杨庆红，张思睿*，武修宇，冯雪璐，路岩，董彦辰，岳洋*，王一桐，陈云诺，梁志阳*，万子煜† 微软 | *核心贡献者 | †项目负责人

arXiv (https://arxiv.org/abs/2605.21573)Hugging Face (https://huggingface.co/microsoft/Lens)GitHub (https://github.com/microsoft/Lens)许可证: MIT (https://huggingface.co/microsoft/LICENSE)

Lens是一个3.8B参数的基础文生图模型，专为高效训练和快速高分辨率生成而设计。它结合了密集描述预训练、混合分辨率学习、GPT-OSS多层文本特征以及 FLUX.2 语义 VAE，在显著减少训练计算量的情况下达到了与更大T2I模型相当的质量。

本仓库提供了从 Lens DiT 检查点生成图像的最小推理代码。

https://huggingface.co/microsoft/Lens-Turbo#highlights亮点

高效基础——在Lens-800M（一个包含8亿图像-文本对的语料库，带有长GPT-4.1描述）上训练，最大化每个训练批次的信息密度。
紧凑且富有表现力——一个48层的MMDiT去噪器利用 FLUX.2 潜变量和拼接的多层 GPT-OSS 特征，实现更强的提示遵循能力和多语言泛化能力。
灵活分辨率——混合分辨率训练支持从1:2到2:1的宽高比以及高达1440×1440的分辨率进行推理。
后训练变体——RL调优改善了视觉质量和伪影抑制；蒸馏后的Lens-Turbo支持快速的4步生成。

https://huggingface.co/microsoft/Lens-Turbo#gallery画廊

第 1 / 6 页样本 000-005Lens 画廊样本 000 样本 000· 1440x1440 一份经典英式炸鱼薯条，盛放在白纸上，金脆的啤酒面糊鳕鱼柳搭配厚切薯条，一块柠檬角，一小碗豌豆泥，旁边放着麦芽醋瓶，木质酒吧桌，俯拍Lens 画廊样本 001 样本 001· 1440x1440 伦敦标志性的大本钟钟楼和国会大厦在金色时刻的景色，泰晤士河倒映着温暖的琥珀色光芒，前景是威斯敏斯特桥，一辆经典红色双层巴士驶过，夕阳映照下的戏剧性云层Lens 画廊样本 002 样本 002· 1440x1440 从特罗卡德罗广场看暮色中的埃菲尔铁塔，铁结构被数千盏闪烁的金色灯光照亮，天空从深蓝过渡到紫色，前景的特罗卡德罗喷泉泛着金色倒影，行人的剪影Lens 画廊样本 003 样本 003· 1248x1664 一条水晶龙在北极光天空中翱翔，整个身体由透明刻面水晶构成，折射出绿色和紫色的极光形成彩虹光谱，冰粒从翅膀上拖曳而下，高幻想数字艺术Lens 画廊样本 004 样本 004· 1664x1248 日出时云南元阳梯田的鸟瞰图，成千上万层叠的注水梯田反射着金色和粉色的天空色彩，晨雾在梯田层间缭绕，青翠的山坡上点缀着棕榈树，无人机摄影Lens 画廊样本 005 样本 005· 1664x1248 一只绿色鬣蜥在热带雨林中长满苔藓的倒木上晒太阳，每一片鳞片和脊突都细节清晰，水滴附着在皮肤上，背景是模糊的瀑布和茂密的热带 foliage，国家地理野生动物摄影风格第 2 / 6 页样本 006-011Lens 画廊样本 006 样本 006· 1248x1664 文艺复兴时期贵妇的油画肖像，身着深蓝色天鹅绒连衣裙，佩戴珍珠水滴耳环，柔和的明暗对比光线揭示细腻的肌肤，画布表面有细密裂纹纹理，维米尔风格Lens 画廊样本 007 样本 007· 1440x1440 一个工匠蜂蜜罐，带有手绘复古植物标签，上面用棕色衬线凸版印刷风格字体写着“山地野花蜂蜜”，并配有装饰性花体，围绕文字的是精致的墨水画野花、三叶草和蜜蜂，牛皮纸标签贴在透明玻璃罐上Lens 画廊样本 008 样本 008· 1440x1440 水彩肖像画，一位沉思的年轻人在巴黎咖啡馆里读一本破旧的皮革书，湿画法笔触松散，融合成温暖的琥珀色和焦赭色色块，可见纸张纹理Lens 画廊样本 009 样本 009· 1664x1248 探险家的橡木书桌，上面摊开一张旧世界地图，一个铜质六分仪，皮面航海日志手写记录，铜烛台上融化的蜡烛，散落的指南针和羽毛笔，温暖的窗光，静物摄影Lens 画廊样本 010 样本 010· 1664x1248 纽约中央车站地铁站，站名“GRAND CENTRAL”用优雅的白色陶瓷马赛克字母镶嵌在深绿色瓷砖墙上，每个字母约八英寸高，华丽的瓷砖边框，可见铁轨的S形曲线Lens 画廊样本 011 样本 011· 1664x1248 一只红喉蜂鸟在鲜红色蝎尾蕉花前悬停，翅膀冻结成8字形图案，显示出彩虹色羽毛细节，鸟周围悬浮着单个水滴，高速微距摄影，深色背景第 3 / 6 页样本 012-017Lens 画廊样本 012 样本 012· 1664x1248 一台老式雷明顿打字机，一张奶油色纸卷入滚筒，打出的文字“第一章：开始”以略微不均匀的Courier字体可见，具有特征性的油墨密度变化，有些字母稍微错位，温暖的台灯灯光Lens 画廊样本 013 样本 013· 1664x1248 金色时刻的角马大迁徙渡过马拉河，数百只动物跃入翻腾的水中，水花四溅，河岸上升起尘土云，戏剧性逆光场景，国家地理纪录片风格Lens 画廊样本 014 样本 014· 1248x1664 迷人的花店橱窗，玻璃上手绘白色花体字写着“每日鲜花”，流畅的连体草书带有装饰性花体，透过字母可以看到桶里摆放的玫瑰和牡丹，晨光照亮彩绘字母Lens 画廊样本 015 样本 015· 1248x1664 蒸汽朋克浮空城市，建在巨大的齿轮驱动平台上，黄铜和铜塔由链桥连接，蒸汽动力飞艇和热气球在不同高度停靠，城市下方是夕阳云层，详细概念艺术Lens 画廊样本 016 样本 016· 1664x1248 新西兰米尔福德峡湾黎明时分，陡峭峡湾墙壁在如镜般静止的水面上完美倒映，瀑布从千尺悬崖倾泻而下，晨雾悬浮在水面上方，全景风光摄影Lens 画廊样本 017 样本 017· 1248x1664 一位印度婆罗多舞古典舞者摆出aramandi姿势，青铜脚铃和精细的手印手势，华丽的丝绸服装搭配金色神庙珠宝，在戏剧性舞台灯光下捕捉到表演瞬间第 4 / 6 页样本 018-023Lens 画廊样本 018 样本 018· 1248x1664 马拉喀什老麦地那的一条窄巷，墙壁涂成鲜艳的钴蓝色，沿墙展示着彩色手工地毯和陶瓷盘，华丽的木门，上方的温暖阳光投下戏剧性的阴影，摩洛哥建筑风格Lens 画廊样本 019 样本 019· 1664x1248 渔村码头的一块质朴木牌，上面手刻着“今日鲜鱼”字样，漆成航海蓝，粗麻绳穿过木牌作为边框，背景堆放着渔网和龙虾笼，海滨氛围Lens 画廊样本 020 样本 020· 1664x1248 海底一艘沉船，完全被色彩斑斓的珊瑚覆盖，成群的观赏鱼游过破损的船体和舷窗，阳光从上方水面射下，水下考古摄影Lens 画廊样本 021 样本 021· 1664x1248 日出时的张家界石柱峰林高耸于云海之上，金色光芒照亮砂岩峰顶，超现实的阿凡达式浮山景观延伸至天际，无人机航拍捕捉宏大垂直尺度Lens 画廊样本 022 样本 022· 1440x1440 一只红眼树蛙栖息在哥斯达黎加云雾森林的鲜红凤梨花上，其霓虹绿的身体与蓝色条纹的侧腹和橙色脚趾形成对比，光滑皮肤上的水滴，极速微距摄影配环形闪光灯Lens 画廊样本 023 样本 023· 1248x1664 一个巨大石灰岩洞穴内部，古老的钟乳石和石笋相接形成柱子，地下河像镜子一样倒映着岩石形态，微妙的暖色灯光揭示了数百万年的矿物沉积，洞穴探险摄影第 5 / 6 页样本 024-029Lens 画廊样本 024 样本 024· 1664x1248 一座饱经风霜的1960年代加油站，路边大招牌写着“66号公路加油即走”，采用红白配色方案的复古圆润无衬线字体，前景是带有模拟表盘的复古油泵，旁边停着一辆经典雪佛兰，美式怀旧风情Lens 画廊样本 025 样本 025· 1664x1248 建筑工地围板覆盖着未经授权的街头艺术，用红、黄、蓝多种重叠颜色的大写字母喷绘着“艺术无处不在”，每个字母都有油漆滴落，混乱而美丽的城市画布Lens 画廊样本 026 样本 026· 1664x1248 锦鲤池的俯视图，几十条观赏锦鲤以鲜艳的红、白、橙、金色图案在清澈的翡翠绿水中游动，水面漂浮着落下的樱花花瓣，日式园林航拍Lens 画廊样本 027 样本 027· 1664x1248 拉萨布达拉宫，星空穹顶下银河横跨头顶，前景是藏式转经筒和酥油灯，投下温暖的金色光芒，巨大的红白宫殿墙壁在月光下闪耀，夜景摄影Lens 画廊样本 028 样本 028· 1248x1664 黄石公园大棱镜泉的无人机正上方拍摄，由嗜热菌形成的鲜艳蓝、绿、黄、橙同心环，蒸汽从水面升起，抽象自然色彩调色板Lens 画廊样本 029 样本 029· 1664x1248 一群非洲象排成一列穿过稀树草原，背景是乞力马扎罗山的雪峰，夕阳金色尘埃被象脚扬起，营造出朦胧氛围，远摄野生动物摄影展现宏大尺度第 6 / 6 页样本 030-031## https://huggingface.co/microsoft/Lens-Turbo#installation安装

测试环境： Python 3.12 · CUDA 12.6 · PyTorch 2.11.0+cu126 · TorchVision 0.26.0+cu126

`` conda create -n lens python=3.12 -y conda activate lens

uv pip install torch==2.11.0+cu126 torchvision==0.26.0+cu126
–index-url https://download.pytorch.org/whl/cu126 uv pip install -r requirements.txt ``

默认的 GPT-OSS 编码器和 FLUX.2 VAE 从 Hugging Face 加载。确保你的环境有权访问你使用的任何门控模型仓库。

https://huggingface.co/microsoft/Lens-Turbo#checkpoints检查点

通过将检查点的仓库 ID 传递给 --repo_id（CLI）或 LensPipeline.from_pretrained(...)（Python）来选择变体。

https://huggingface.co/microsoft/Lens-Turbo#inference推理

重要提示： 从克隆的仓库根目录运行，这样 from lens import LensPipeline 能正确解析到此包——导入 lens 会将 LensGptOssEncoder/LensTransformer2DModel 注册到 transformers 和 diffusers 命名空间，这些命名空间由 model_index.json 引用。

Python API：

`` import torch from lens import LensPipeline

pipe = LensPipeline.from_pretrained( “microsoft/Lens”, torch_dtype=torch.bfloat16 ).to(“cuda”)

image = pipe( prompt=“A cat holding a sign that says "hello world"”, base_resolution=1440, aspect_ratio=“1:1”, num_inference_steps=20, guidance_scale=5.0, generator=torch.Generator(“cuda”).manual_seed(0), ).images[0] image.save(“lens.png”) ``

为了用速度换取显存，可以将 .to("cuda") 替换为 pipe.enable_model_cpu_offload()。

CLI — 基本用法：

python inference.py \ --repo_id "microsoft/Lens" \ --prompt "A cinematic mountain lake at sunrise, soft mist, detailed reflections" \ --base_resolution 1440 --aspect_ratio 1:1 \ --steps 20 --cfg 5.0 --n 1 --seed 42 \ --out ./outputs

批量生成 —— 用 | 连接多个提示词：

python inference.py \ --repo_id "microsoft/Lens" \ --steps 20 --cfg 5.0 \ --prompt "a red fox in snow|a glass greenhouse at night"

A100 / V100（无 MXFP4 内核） —— 将 GPT-OSS 编码器反量化到 bf16：

python inference.py \ --repo_id "microsoft/Lens" \ --steps 20 --cfg 5.0 \ --prompt "a cat" \ --disable_mxfp4 --offload

https://huggingface.co/microsoft/Lens-Turbo#options选项

标志描述默认值--repo_id组装好的 Lens 管线的 HF 仓库 ID（或本地路径）microsoft/Lens``--base_resolution 1024 或 1440 1440``--aspect_ratio 1:2, 9:16, 2:3, 3:4, 1:1, 4:3, 3:2, 16:9, 2:1 1:1``--steps 去噪步数 20``--cfg 无分类器指导尺度 5.0``--n 每个提示词生成的图像数量 1``--seed 随机种子（省略则不确定）—--out 输出目录 ./outputs``--dtype 计算数据类型：bfloat16, float16, float32 bfloat16``--disable_mxfp4 将 GPT-OSS 文本编码器反量化为 --dtype（A100/V100 上必需；Hopper+ 默认保留 MXFP4 以减少显存）—--offload 启用 diffusers CPU 卸载（text_encoder->transformer->vae）以降低峰值显存 —--reasoner 在生成前使用加载的 GPT-OSS 编码器优化提示词 —--api_url/--api_key/--api_model 使用兼容 OpenAI 的 API 进行提示词优化（优先级高于 --reasoner）—

https://huggingface.co/microsoft/Lens-Turbo#citation引用

@article{zhao2026lens, title = {Lens: Rethinking Training Efficiency for Foundational Text-to-Image Models}, author = {Guo, Baining and Luo, Chong and Chen, Dong and Chen, Dongdong and Wei, Fangyun and Li, Ji and Bao, Jianmin and Zhang, Jiawei and Zhao, Jinjing and Shi, Lei and Yang, Qinhong and Zhang, Sirui and Wu, Xiuyu and Feng, Xuelu and Lu, Yan and Dong, Yanchen and Yue, Yang and Wang, Yitong and Chen, Yunuo and Liang, Zhiyang and Wan, Ziyu}, journal = {arXiv preprint arXiv:2605.21573}, year = {2026} }

https://huggingface.co/microsoft/Lens-Turbo#responsible-ai负责任的 AI

该模型仅用于研究目的，不适用于产品或服务部署。在整个开发过程中，包括数据选择、模型训练和评估中，都融入了负责任 AI 的考虑。训练数据结合了公开、许可和内部数据集，经过处理以尽可能移除明显可识别的个人信息并减少有害内容。然而，由于数据主要来源于网络规模

microsoft/Lens-Turbo

microsoft/Lens-Turbo · Hugging Face

https://huggingface.co/microsoft/Lens-Turbo#lens-rethinking-training-efficiency-for-foundational-text-to-image-modelsLens：重新思考基础文生图模型的训练效率

https://huggingface.co/microsoft/Lens-Turbo#highlights亮点

https://huggingface.co/microsoft/Lens-Turbo#gallery画廊

https://huggingface.co/microsoft/Lens-Turbo#checkpoints检查点

https://huggingface.co/microsoft/Lens-Turbo#inference推理

https://huggingface.co/microsoft/Lens-Turbo#options选项

https://huggingface.co/microsoft/Lens-Turbo#citation引用

https://huggingface.co/microsoft/Lens-Turbo#responsible-ai负责任的 AI

相似文章

microsoft/Lens

Lens：重新思考基础文本到图像模型的训练效率

@HuggingPapers：微软刚刚在Hugging Face上发布了Lens，一个38亿参数的文本到图像模型，提供高效训练和高…

microsoft/Mage-Flow

三个开源图像模型，一个平台。Microsoft Foundry 和 Hugging Face 为开发者带来的最大目录 f…

提交意见反馈