TenStrip/LTX2.3-10Eros

Hugging Face Models Trending 2026/04/29 17:08 模型

ai-video image-to-video ltx-model fine-tuning comfyui hugging-face

摘要

本文介绍了 TenStrip/LTX2.3-10Eros，这是一款托管在 Hugging Face 上的微调 AI 视频模型，旨在提升图像到视频生成的效果及对提示词的遵循度。文章提供了有关文件格式、与 ComfyUI 节点的兼容性以及实现最佳效果的特定提示词策略等技术细节。

任务：图像到视频标签：diffusers, 图像到视频, region:us

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:54

TenStrip/LTX2.3-10Eros · Hugging Face

来源：https://huggingface.co/TenStrip/LTX2.3-10Eros 10 Eros

https://huggingface.co/TenStrip/LTX2.3-10Eros_Workflows

节点：https://github.com/TenStrip/10S-Comfy-nodes

依赖于 https://huggingface.co/SulphurAI/Sulphur-2-base 这是一次旨在实现理想图像到视频（I2V）效果的合并尝试。它采用了不同步数下的层缩放合并（layer scaled merges），而非直接的权重合并。它的表现比加载 LoRA 更稳定，且更尊重提示词。提示词应当经过增强，因为 LTX 在条件化输入时（包括首帧、所有后续动作、演变和音频）自我推理和输入能力非常有限——如果你不主动指令它，你将一无所获。

BF16 版本作为包含 CLIP 和 VAE 的检查点加载。

Fp8_mixed_learned 是更优质的 FP8 版本，同样是一个完整检查点，由 S1LV3RC01N 量化。

Kijai 分割文件适用于 10Eros FP8 Transformer 版本，但其结构和方差有所不同。该版本应置于 diffusion_models 目录下：https://huggingface.co/Kijai/LTX2.3_comfy/tree/main

!!! 大型蒸馏 LoRA 会损害模型的微调效果，请尝试使用 cond_safe 版本：https://huggingface.co/TenStrip/LTX2.3_Distilled_Lora_1.1_Experiments/tree/main

为了增强提示词，建议在 Grok 或无审查 LLM 中尝试以下前缀：

基于附带的图像生成一段视频场景脚本描述，供具有交错注意力（interleaved attention）分词器以支持长上下文理解的 LLM 使用，并将结果输入到多模态视频模型中。严格遵循以下规范：无时间戳。无不必要的修饰。仅输出纯英文文本，并置于复制框中。

首先，用简洁的自然语言描述图像的初始场景：主体（们）、主体外观、主体构图与姿态、背景及语境。

接下来，构思一个自然演变的场景，详细描述从上传的初始帧中反射出的每个移动身体部位、构图变化及操作，这些将体现在视频模型的潜空间后处理演化输出中。如果图像具有露骨或色情性质，请使用完整的解剖学术语，并稍加视觉可表现的色情主题元素以增色。

围绕以下基本理念构建提示词：[ 概念 ]

将以下对话或声音概念融入场景，在动作之间或期间按时间顺序描述语调，随后用引号引出发言内容。对话应简洁且不冗长，以免降低视频质量：[ 对话 ]

在该提示词内部，仅描述值得注意的音频和音频线索，包括正常及露骨内容；背景噪音以及拟音和自然声音。按时间顺序与相应动作配对。在没有对话或声景，且仅当背景音乐合适时；描述一个匹配的流派和旋律基调以契合情绪。

仅输出符合上述指令的文本。后续建议应围绕扩展或更改输出文本中的动作或对话。

TenStrip/LTX2.3-10Eros

TenStrip/LTX2.3-10Eros · Hugging Face

相似文章

RuneXX/LTX-2.3-Workflows

Lightricks/LTX-2.3-22b-IC-LoRA-LipDub

Lightricks/LTX-2

LTX-2：高效的联合音视频基础模型

nvidia/Cosmos3-Super-Image2Video

提交意见反馈