LiconStudio/Ltx2.3-VBVR-lora-I2V
摘要
LiconStudio 发布了一个针对 LTX-2.3 的 LoRA 适配器,该适配器在 VBVR 数据集上进行了微调,以增强视频生成能力,改善提示理解、运动动态和时间一致性,用于复杂的视频推理任务。
查看缓存全文
缓存时间: 2026/04/20 14:45
LiconStudio/Ltx2.3-VBVR-lora-I2V · Hugging Face
Source: https://huggingface.co/LiconStudio/Ltx2.3-VBVR-lora-I2V
LTX-2 VBVR LoRA - 视频推理
基于VBVR(一个超大规模视频推理套件)数据集,为LTX-2.3 22B微调的LoRA权重。
训练数据
为确保训练质量,我们对官方数据集中的全部1,000,000个视频进行了预处理,并在训练过程中随机采样以保持数据多样性。我们采用官方参数,batch_size=16,rank=32,以防止过大的rank导致灾难性遗忘。
VBVR数据集包含200个推理任务类别,每个任务约5,000种变体,总计约1M个视频。主要任务类型包括:
- 物体轨迹:物体移动到目标位置
- 物理推理:滚球、碰撞、重力
- 因果关系:条件触发、连锁反应
- 空间关系:相对位置、路径规划
模型详情
| 项目 | 详情 |
|---|---|
| 基础模型 | ltx-2.3-22b-dev |
| 训练方法 | LoRA 微调 |
| LoRA Rank | 32 |
| 有效批次大小 | 16 |
| 混合精度 | BF16 |
待办事项
数据集发布计划
| 数据集 | 视频数量 | 状态 |
|---|---|---|
| VBVR-96K | 96,000 | ✅ 已发布 |
| VBVR-240K | 240,000 | 🔄 处理中 |
| VBVR-480K | 480,000 | 📋 计划中 |
LoRA 功能
此LoRA适配器增强了基础LTX-2模型在生产级视频生成工作流中的能力:
- 增强的复杂提示理解:准确解释多物体、多条件提示,包含详细的空间描述和时间序列,减少生产场景中的提示误解。
- 改进的运动动力学:生成平滑、物理上合理的物体运动,具有自然的加速、减速和轨迹曲线,避免生硬或不自然的运动模式。
- 时间一致性:在整个视频序列中保持物体外观、光照和场景连贯性,减少生成视频中常见的闪烁和帧间伪影。
- 精确的时间控制:基于提示语义,能够精准控制动作持续时间、节奏以及多个运动元素之间的同步。
- 多物体交互:处理多个物体同时交互的复杂场景,包括碰撞、跟随、躲避和协调运动。
- 相机与构图稳定性:在整个序列中保持相机视角和构图一致,避免不必要的相机抖动或视角突变。
训练配置
| 配置 | 值 |
|---|---|
| 学习率 | 1e-4 |
| 调度器 | Cosine |
| 梯度累积 | 16 steps |
| 梯度裁剪 | 1.0 |
| 优化器 | AdamW |
评估指标
损失训练曲线 (https://huggingface.co/LiconStudio/Ltx2.3-VBVR-lora-I2V/blob/main/loss-plot-96000.png)
| 指标 | 值 |
|---|---|
| 训练步数 | ~6,000 |
| 最终损失 | ~0.008 |
| 损失降低 | 44%(从0.014降至0.008) |
视频演示
训练进度对比
第0步(基础模型)
初始模型输出。
第6000步(微调后)
经过6K步训练后。
数据集
此模型基于来自 video-reason.com (https://video-reason.com/) 的 VBVR(视频推理基准)数据集训练。
联系方式
如有疑问或建议,请在 Hugging Face 上开 issue 或直接联系作者。
相似文章
fal/LTX-2.3-3DREAL-LoRA
针对LTX-2.3的LoRA适配器,能将粗糙的3D视口动画(来自Blender、游戏引擎)转换为逼真的视频,同时保留构图和相机运动。
Lightricks/LTX-2.3-22b-IC-LoRA-LipDub
这个Hugging Face模型页面介绍了一个基于LTX-2.3-22b训练的IC-LoRA,用于唇语同步配音,包含项目页面、论文和推理流程。
Lightricks/LTX-2.3
Lightricks 发布了 LTX-2.3,这是一个基于扩散的开放权重音视频基础模型,具有改进的质量和提示遵循性,提供多个检查点,包括蒸馏和 LoRA 变体,可在本地执行。
Video2LoRA: 视觉-语言模型的参数化视频内化
本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。
LLaVA-OneVision-2:迈向下一代感知智能
LLaVA-OneVision-2 引入了编解码流分词和窗口注意力机制以实现高效的视频理解,在包括视频、空间和跟踪任务在内的多个多模态基准测试中取得了最先进的性能。