Lightricks/LTX-2
摘要
LTX-2 是 Lightricks 推出的首个基于 DiT 的音频-视频基础模型,提供同步音频和视频生成、高保真度以及可投入生产的输出,并附带开源代码和开放模型权重。
用于 LTX-2 音频-视频生成模型的官方 Python 推理和 LoRA 训练器包。
查看缓存全文
缓存时间: 2026/06/18 17:40
Lightricks/LTX-2 源码:https://github.com/Lightricks/LTX-2 # LTX-2 网站 (https://ltx.io) 模型 (https://huggingface.co/Lightricks/LTX-2.3) 演示 (https://console.ltx.video/playground) 论文 (https://arxiv.org/abs/2601.03233) Discord (https://discord.gg/ltxplatform) LTX-2 是首个基于 DiT 的音视频基础模型,它将现代视频生成的所有核心能力集成于单一模型:同步音视频、高保真度、多种性能模式、可投入生产的输出、API 访问以及开放获取。 ## 🚀 快速开始 bash # 克隆仓库 git clone https://github.com/Lightricks/LTX-2.git cd LTX-2 # 设置环境 uv sync --frozen source .venv/bin/activate ### 所需模型 从 LTX-2.3 HuggingFace 仓库 (https://huggingface.co/Lightricks/LTX-2.3) 下载以下模型: LTX-2.3 模型检查点(选择并下载以下之一) * ltx-2.3-22b-dev.safetensors (https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-dev.safetensors) - 下载 (https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-dev.safetensors) * ltx-2.3-22b-distilled-1.1.safetensors (https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-1.1.safetensors) - 下载 (https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-distilled-1.1.safetensors) 空间上采样器 - 当前仓库中的两阶段流水线实现所需 * ltx-2.3-spatial-upscaler-x2-1.1.safetensors (https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensors) - 下载 (https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-spatial-upscaler-x2-1.1.safetensors) * ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors (https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors) - 下载 (https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-spatial-upscaler-x1.5-1.0.safetensors) 时间上采样器 - 模型支持,未来流水线实现需要 * ltx-2.3-temporal-upscaler-x2-1.0.safetensors (https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-temporal-upscaler-x2-1.0.safetensors) - 下载 (https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-temporal-upscaler-x2-1.0.safetensors) 蒸馏 LoRA - 当前仓库中的两阶段流水线实现所需(DistilledPipeline、ICLoraPipeline 和 LipDubPipeline 除外) * ltx-2.3-22b-distilled-lora-384-1.1.safetensors (https://huggingface.co/Lightricks/LTX-2.3/blob/main/ltx-2.3-22b-distilled-lora-384-1.1.safetensors) - 下载 (https://huggingface.co/Lightricks/LTX-2.3/resolve/main/ltx-2.3-22b-distilled-lora-384-1.1.safetensors) Gemma 文本编码器(从仓库下载所有资源) * Gemma 3 (https://huggingface.co/google/gemma-3-12b-it-qat-q4_0-unquantized/tree/main) LoRA * LTX-2.3-22b-IC-LoRA-Union-Control (https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Union-Control) - 下载 (https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Union-Control/resolve/main/ltx-2.3-22b-ic-lora-union-control-ref0.5.safetensors) * LTX-2.3-22b-IC-LoRA-Motion-Track-Control (https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Motion-Track-Control) - 下载 (https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-Motion-Track-Control/resolve/main/ltx-2.3-22b-ic-lora-motion-track-control-ref0.5.safetensors) * LTX-2-19b-IC-LoRA-Detailer (https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Detailer) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Detailer/resolve/main/ltx-2-19b-ic-lora-detailer.safetensors) * LTX-2-19b-IC-LoRA-Pose-Control (https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Pose-Control) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-IC-LoRA-Pose-Control/resolve/main/ltx-2-19b-ic-lora-pose-control.safetensors) * LTX-2-19b-LoRA-Camera-Control-Dolly-In (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-In) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-In/resolve/main/ltx-2-19b-lora-camera-control-dolly-in.safetensors) * LTX-2-19b-LoRA-Camera-Control-Dolly-Left (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Left/resolve/main/ltx-2-19b-lora-camera-control-dolly-left.safetensors) * LTX-2-19b-LoRA-Camera-Control-Dolly-Out (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Out) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Out/resolve/main/ltx-2-19b-lora-camera-control-dolly-out.safetensors) * LTX-2-19b-LoRA-Camera-Control-Dolly-Right (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Right) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Dolly-Right/resolve/main/ltx-2-19b-lora-camera-control-dolly-right.safetensors) * LTX-2-19b-LoRA-Camera-Control-Jib-Down (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Down) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Down/resolve/main/ltx-2-19b-lora-camera-control-jib-down.safetensors) * LTX-2-19b-LoRA-Camera-Control-Jib-Up (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Up) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Jib-Up/resolve/main/ltx-2-19b-lora-camera-control-jib-up.safetensors) * LTX-2-19b-LoRA-Camera-Control-Static (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static) - 下载 (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static/resolve/main/ltx-2-19b-lora-camera-control-static.safetensors) * LTX-2.3-22b-IC-LoRA-HDR (https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-HDR) - HDR IC-LoRA 及预计算文本嵌入,用于 HDRICLoraPipeline * LTX-2.3-22b-IC-LoRA-LipDub (https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-LipDub) - 下载 (https://huggingface.co/Lightricks/LTX-2.3-22b-IC-LoRA-LipDub/resolve/main/ltx-2.3-22b-ic-lora-lipdub-0.9.safetensors) ### 可用管道 * TI2VidTwoStagesPipeline - 生产级文本/图像转视频,含 2 倍上采样(推荐) * TI2VidTwoStagesHQPipeline - 与上述两阶段流程相同,但使用 res_2s 二阶采样器(步骤更少,质量更高) * TI2VidOneStagePipeline - 单阶段生成,适合快速原型验证 * DistilledPipeline - 使用 8 个预定义 sigma 的最快推理 * ICLoraPipeline - 视频到视频和图像到视频转换(使用蒸馏模型) * KeyframeInterpolationPipeline - 关键帧图像之间的插值 * A2VidPipelineTwoStage - 以输入音频为条件的音频到视频生成 * RetakePipeline - 重新生成现有视频的特定时间区域 * HDRICLoraPipeline - 视频到视频,HDR 输出(通过 LogC3 逆解码得到线性浮点帧,适合 EXR 导出和色调映射) * LipDubPipeline - 唇形同步配音、改写、匹配说话者身份(蒸馏模型,单 IC-LoRA,两阶段) ### ⚡ 优化技巧 * 使用 DistilledPipeline - 仅需 8 个预定义 sigma 即可实现最快推理(第一阶段 8 步,第二阶段 4 步) * 启用 FP8 量化 - 降低内存占用:--quantization fp8-cast(CLI)或 quantization=QuantizationPolicy.fp8_cast()(Python)。Fp8-cast 应与 bf16 检查点一起使用,它会动态降级。对于配备 TensorRT-LLM 的 Hopper GPU,请使用 --quantization fp8-scaled-mm 进行 FP8 缩放矩阵乘法。Fp8-scaled-mm 应与 fp8 检查点一起使用。 * 安装注意力优化 - 在数据中心 Blackwell GPU(B200)上,手动安装 FlashAttention 4:uv pip install 'flash-attn-4==4.0.0b9'(此特定修订版是我们已针对 torch 2.9.1+cu128 验证的版本;较新的测试版在消费级 Blackwell 上已知存在问题)。在其他 CUDA GPU(包括 Hopper)上,使用 xFormers(uv sync --extra xformers)。 * 使用梯度估计 - 将推理步骤从 40 减少到 20-30,同时保持质量(参见 管道文档) * 跳过内存清理 - 如果 VRAM 充足,可禁用阶段间的自动内存清理以加快处理速度 * 选择单阶段管道 - 当不需要高分辨率时,使用 TI2VidOneStagePipeline 实现更快的生成 ## ✍️ 为 LTX-2 编写提示词 编写提示词时,重点放在对动作和场景的详细、按时间顺序的描述。包括具体的动作、外观、镜头角度和环境细节——全部整合成一个流畅的段落。直接从动作开始,保持描述直白而精确。想象自己是一位电影摄影师在描述镜头列表。控制在 200 字以内。 为获得最佳效果,请按以下结构构建提示词: - 用一句话开始主要动作 - 添加动作和姿态的具体细节 - 精确描述角色/物体的外观 - 包含背景和环境细节 - 指定镜头角度和运动 - 描述光线和色彩 - 注意任何变化或突发事件 关于如何编写提示词的更多指导,请参考 ### 自动提示增强 LTX-2 管道支持通过 enhance_prompt 参数进行自动提示增强。 ## 🔌 ComfyUI 集成 要使用我们的模型与 ComfyUI,请按照 中的说明操作。 ## 📦 包 本仓库采用 monorepo 组织方式,包含三个主要包: * ltx-core - 核心模型实现、推理堆栈和工具 * ltx-pipelines - 文本转视频、图像转视频及其他生成模式的高层管道实现 * ltx-trainer - 用于 LoRA、全参数微调和 IC-LoRA 的训练与微调工具 每个包都有自己的 README 和文档。请参阅下面的 文档 部分。 ## 📚 文档 每个包都包含全面的文档: * LTX-Core README - 核心模型实现、推理堆栈和工具 * LTX-Pipelines README - 高层管道实现和使用指南 * LTX-Trainer README - 训练和微调文档及详细指南
相似文章
Lightricks/LTX-2.3
Lightricks 发布了 LTX-2.3,这是一个基于扩散的开放权重音视频基础模型,具有改进的质量和提示遵循性,提供多个检查点,包括蒸馏和 LoRA 变体,可在本地执行。
LTX-2:高效的联合音视频基础模型
LTX-2 是一款高效的联合音视频基础模型。文本内容混合了论文引用和关于国家面临生存威胁的视频脚本,但主要的分类目标是该 AI 模型论文。
Lightricks/LTX-2.3-22b-IC-LoRA-LipDub
这个Hugging Face模型页面介绍了一个基于LTX-2.3-22b训练的IC-LoRA,用于唇语同步配音,包含项目页面、论文和推理流程。
RuneXX/LTX-2.3-Workflows
该 Hugging Face 仓库提供了 Lightricks 的 LTX-2.3 视频生成模型的工作流和模型下载,专为与 ComfyUI 配合使用而设计,包括分割模型、GGUF 版本以及所需的自定义节点。
joyfox/LTX2.3-ICEdit-Insight
JoyFox Lab 发布了 LTX2.3-ICEdit-Insight,这是一个基于 LTX-2.3 构建的任务感知型视频恢复与编辑模型系列,支持视频恢复、高清增强、水印去除和字幕去除。