LiconStudio/Ltx2.3-VBVR-lora-I2V

Hugging Face Models Trending 模型

摘要

LiconStudio 发布了一个针对 LTX-2.3 的 LoRA 适配器,该适配器在 VBVR 数据集上进行了微调,以增强视频生成能力,改善提示理解、运动动态和时间一致性,用于复杂的视频推理任务。

标签:diffusers, 视频生成, 视频推理, 逻辑推理, LoRA, ltx-2.3, en, zh, base_model:Lightricks/LTX-2.3, base_model:adapter:Lightricks/LTX-2.3, 许可协议:其他, 区域:us
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:45

LiconStudio/Ltx2.3-VBVR-lora-I2V · Hugging Face

Source: https://huggingface.co/LiconStudio/Ltx2.3-VBVR-lora-I2V

LTX-2 VBVR LoRA - 视频推理

基于VBVR(一个超大规模视频推理套件)数据集,为LTX-2.3 22B微调的LoRA权重。

训练数据

为确保训练质量,我们对官方数据集中的全部1,000,000个视频进行了预处理,并在训练过程中随机采样以保持数据多样性。我们采用官方参数,batch_size=16,rank=32,以防止过大的rank导致灾难性遗忘。

VBVR数据集包含200个推理任务类别,每个任务约5,000种变体,总计约1M个视频。主要任务类型包括:

  • 物体轨迹:物体移动到目标位置
  • 物理推理:滚球、碰撞、重力
  • 因果关系:条件触发、连锁反应
  • 空间关系:相对位置、路径规划

模型详情

项目详情
基础模型ltx-2.3-22b-dev
训练方法LoRA 微调
LoRA Rank32
有效批次大小16
混合精度BF16

待办事项

数据集发布计划

数据集视频数量状态
VBVR-96K96,000✅ 已发布
VBVR-240K240,000🔄 处理中
VBVR-480K480,000📋 计划中

LoRA 功能

此LoRA适配器增强了基础LTX-2模型在生产级视频生成工作流中的能力:

  • 增强的复杂提示理解:准确解释多物体、多条件提示,包含详细的空间描述和时间序列,减少生产场景中的提示误解。
  • 改进的运动动力学:生成平滑、物理上合理的物体运动,具有自然的加速、减速和轨迹曲线,避免生硬或不自然的运动模式。
  • 时间一致性:在整个视频序列中保持物体外观、光照和场景连贯性,减少生成视频中常见的闪烁和帧间伪影。
  • 精确的时间控制:基于提示语义,能够精准控制动作持续时间、节奏以及多个运动元素之间的同步。
  • 多物体交互:处理多个物体同时交互的复杂场景,包括碰撞、跟随、躲避和协调运动。
  • 相机与构图稳定性:在整个序列中保持相机视角和构图一致,避免不必要的相机抖动或视角突变。

训练配置

配置
学习率1e-4
调度器Cosine
梯度累积16 steps
梯度裁剪1.0
优化器AdamW

评估指标

损失训练曲线 (https://huggingface.co/LiconStudio/Ltx2.3-VBVR-lora-I2V/blob/main/loss-plot-96000.png)

指标
训练步数~6,000
最终损失~0.008
损失降低44%(从0.014降至0.008)

视频演示

训练进度对比

第0步(基础模型)

初始模型输出。

第6000步(微调后)

经过6K步训练后。

数据集

此模型基于来自 video-reason.com (https://video-reason.com/) 的 VBVR(视频推理基准)数据集训练。

联系方式

如有疑问或建议,请在 Hugging Face 上开 issue 或直接联系作者。

相似文章

fal/LTX-2.3-3DREAL-LoRA

Hugging Face Models Trending

针对LTX-2.3的LoRA适配器,能将粗糙的3D视口动画(来自Blender、游戏引擎)转换为逼真的视频,同时保留构图和相机运动。

Lightricks/LTX-2.3-22b-IC-LoRA-LipDub

Hugging Face Models Trending

这个Hugging Face模型页面介绍了一个基于LTX-2.3-22b训练的IC-LoRA,用于唇语同步配音,包含项目页面、论文和推理流程。

Lightricks/LTX-2.3

Hugging Face Models Trending

Lightricks 发布了 LTX-2.3,这是一个基于扩散的开放权重音视频基础模型,具有改进的质量和提示遵循性,提供多个检查点,包括蒸馏和 LoRA 变体,可在本地执行。

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。

LLaVA-OneVision-2:迈向下一代感知智能

Hugging Face Daily Papers

LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。