LiconStudio/Ltx2.3-VBVR-lora-I2V

Hugging Face Models Trending 2026/04/08 01:43 模型

摘要

LiconStudio 发布了一个针对 LTX-2.3 的 LoRA 适配器，该适配器在 VBVR 数据集上进行了微调，以增强视频生成能力，改善提示理解、运动动态和时间一致性，用于复杂的视频推理任务。

标签：diffusers, 视频生成, 视频推理, 逻辑推理, LoRA, ltx-2.3, en, zh, base_model:Lightricks/LTX-2.3, base_model:adapter:Lightricks/LTX-2.3, 许可协议:其他, 区域:us

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:45

LiconStudio/Ltx2.3-VBVR-lora-I2V · Hugging Face

Source: https://huggingface.co/LiconStudio/Ltx2.3-VBVR-lora-I2V

LTX-2 VBVR LoRA - 视频推理

基于VBVR（一个超大规模视频推理套件）数据集，为LTX-2.3 22B微调的LoRA权重。

训练数据

为确保训练质量，我们对官方数据集中的全部1,000,000个视频进行了预处理，并在训练过程中随机采样以保持数据多样性。我们采用官方参数，batch_size=16，rank=32，以防止过大的rank导致灾难性遗忘。

VBVR数据集包含200个推理任务类别，每个任务约5,000种变体，总计约1M个视频。主要任务类型包括：

物体轨迹：物体移动到目标位置
物理推理：滚球、碰撞、重力
因果关系：条件触发、连锁反应
空间关系：相对位置、路径规划

模型详情

项目	详情
基础模型	ltx-2.3-22b-dev
训练方法	LoRA 微调
LoRA Rank	32
有效批次大小	16
混合精度	BF16

待办事项

数据集发布计划

数据集	视频数量	状态
VBVR-96K	96,000	✅ 已发布
VBVR-240K	240,000	🔄 处理中
VBVR-480K	480,000	📋 计划中

LoRA 功能

此LoRA适配器增强了基础LTX-2模型在生产级视频生成工作流中的能力：

增强的复杂提示理解：准确解释多物体、多条件提示，包含详细的空间描述和时间序列，减少生产场景中的提示误解。
改进的运动动力学：生成平滑、物理上合理的物体运动，具有自然的加速、减速和轨迹曲线，避免生硬或不自然的运动模式。
时间一致性：在整个视频序列中保持物体外观、光照和场景连贯性，减少生成视频中常见的闪烁和帧间伪影。
精确的时间控制：基于提示语义，能够精准控制动作持续时间、节奏以及多个运动元素之间的同步。
多物体交互：处理多个物体同时交互的复杂场景，包括碰撞、跟随、躲避和协调运动。
相机与构图稳定性：在整个序列中保持相机视角和构图一致，避免不必要的相机抖动或视角突变。

训练配置

配置	值
学习率	1e-4
调度器	Cosine
梯度累积	16 steps
梯度裁剪	1.0
优化器	AdamW

评估指标

损失训练曲线 (https://huggingface.co/LiconStudio/Ltx2.3-VBVR-lora-I2V/blob/main/loss-plot-96000.png)

指标	值
训练步数	~6,000
最终损失	~0.008
损失降低	44%（从0.014降至0.008）

视频演示

训练进度对比

第0步（基础模型）

初始模型输出。

第6000步（微调后）

经过6K步训练后。

数据集

此模型基于来自 video-reason.com (https://video-reason.com/) 的 VBVR（视频推理基准）数据集训练。

联系方式

如有疑问或建议，请在 Hugging Face 上开 issue 或直接联系作者。

LiconStudio/Ltx2.3-VBVR-lora-I2V

LiconStudio/Ltx2.3-VBVR-lora-I2V · Hugging Face

LTX-2 VBVR LoRA - 视频推理

训练数据

模型详情

待办事项

数据集发布计划

LoRA 功能

训练配置

评估指标

视频演示

训练进度对比

第0步（基础模型）

第6000步（微调后）

数据集

联系方式

相似文章

fal/LTX-2.3-3DREAL-LoRA

Lightricks/LTX-2.3-22b-IC-LoRA-LipDub

Lightricks/LTX-2.3

Video2LoRA: 视觉-语言模型的参数化视频内化

LLaVA-OneVision-2：迈向下一代感知智能

提交意见反馈