TenStrip/LTX2.3-10Eros
摘要
本文介绍了 TenStrip/LTX2.3-10Eros,这是一款托管在 Hugging Face 上的微调 AI 视频模型,旨在提升图像到视频生成的效果及对提示词的遵循度。文章提供了有关文件格式、与 ComfyUI 节点的兼容性以及实现最佳效果的特定提示词策略等技术细节。
查看缓存全文
缓存时间: 2026/05/08 08:54
TenStrip/LTX2.3-10Eros · Hugging Face
来源:https://huggingface.co/TenStrip/LTX2.3-10Eros 10 Eros
https://huggingface.co/TenStrip/LTX2.3-10Eros_Workflows
节点:https://github.com/TenStrip/10S-Comfy-nodes
依赖于 https://huggingface.co/SulphurAI/Sulphur-2-base 这是一次旨在实现理想图像到视频(I2V)效果的合并尝试。它采用了不同步数下的层缩放合并(layer scaled merges),而非直接的权重合并。它的表现比加载 LoRA 更稳定,且更尊重提示词。提示词应当经过增强,因为 LTX 在条件化输入时(包括首帧、所有后续动作、演变和音频)自我推理和输入能力非常有限——如果你不主动指令它,你将一无所获。
BF16 版本作为包含 CLIP 和 VAE 的检查点加载。
Fp8_mixed_learned 是更优质的 FP8 版本,同样是一个完整检查点,由 S1LV3RC01N 量化。
Kijai 分割文件适用于 10Eros FP8 Transformer 版本,但其结构和方差有所不同。该版本应置于 diffusion_models 目录下:https://huggingface.co/Kijai/LTX2.3_comfy/tree/main
!!! 大型蒸馏 LoRA 会损害模型的微调效果,请尝试使用 cond_safe 版本:https://huggingface.co/TenStrip/LTX2.3_Distilled_Lora_1.1_Experiments/tree/main
为了增强提示词,建议在 Grok 或无审查 LLM 中尝试以下前缀:
基于附带的图像生成一段视频场景脚本描述,供具有交错注意力(interleaved attention)分词器以支持长上下文理解的 LLM 使用,并将结果输入到多模态视频模型中。严格遵循以下规范:无时间戳。无不必要的修饰。仅输出纯英文文本,并置于复制框中。
首先,用简洁的自然语言描述图像的初始场景:主体(们)、主体外观、主体构图与姿态、背景及语境。
接下来,构思一个自然演变的场景,详细描述从上传的初始帧中反射出的每个移动身体部位、构图变化及操作,这些将体现在视频模型的潜空间后处理演化输出中。如果图像具有露骨或色情性质,请使用完整的解剖学术语,并稍加视觉可表现的色情主题元素以增色。
围绕以下基本理念构建提示词:[ 概念 ]
将以下对话或声音概念融入场景,在动作之间或期间按时间顺序描述语调,随后用引号引出发言内容。对话应简洁且不冗长,以免降低视频质量:[ 对话 ]
在该提示词内部,仅描述值得注意的音频和音频线索,包括正常及露骨内容;背景噪音以及拟音和自然声音。按时间顺序与相应动作配对。在没有对话或声景,且仅当背景音乐合适时;描述一个匹配的流派和旋律基调以契合情绪。
仅输出符合上述指令的文本。后续建议应围绕扩展或更改输出文本中的动作或对话。
相似文章
RuneXX/LTX-2.3-Workflows
该 Hugging Face 仓库提供了 Lightricks 的 LTX-2.3 视频生成模型的工作流和模型下载,专为与 ComfyUI 配合使用而设计,包括分割模型、GGUF 版本以及所需的自定义节点。
Lightricks/LTX-2.3-22b-IC-LoRA-LipDub
这个Hugging Face模型页面介绍了一个基于LTX-2.3-22b训练的IC-LoRA,用于唇语同步配音,包含项目页面、论文和推理流程。
Lightricks/LTX-2
LTX-2 是 Lightricks 推出的首个基于 DiT 的音频-视频基础模型,提供同步音频和视频生成、高保真度以及可投入生产的输出,并附带开源代码和开放模型权重。
LTX-2:高效的联合音视频基础模型
LTX-2 是一款高效的联合音视频基础模型。文本内容混合了论文引用和关于国家面临生存威胁的视频脚本,但主要的分类目标是该 AI 模型论文。
nvidia/Cosmos3-Super-Image2Video
NVIDIA 发布 Cosmos3-Super-Image2Video,该模型能够根据输入图像和文本指令生成时间上连贯的视频序列,是面向物理 AI 应用的 Cosmos 3 全模态世界模型平台的一部分。