video-prediction

标签

Cards List
#video-prediction

DVD-JEPA:一个开源、完全可复现的JEPA世界模型 [P]

Reddit r/MachineLearning · 6天前

DVD-JEPA 是一个开源、极简的 JEPA 世界模型,它通过预测未来嵌入而非像素来从视频中学习表示。它使用弹跳的 DVD 标志来演示位置恢复、梦境生成和异常检测,所有这些都在浏览器中运行。

0 人收藏 0 人点赞
#video-prediction

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers · 2026-05-31 缓存

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。

0 人收藏 0 人点赞
#video-prediction

@artemZholus:谢谢!在第二篇论文(https://arxiv.org/abs/2605.06388)中,我们采用了您(和RAE)的方案,效果不错。

X AI KOLs Following · 2026-05-26 缓存

本文系统地比较了基于重建和基于语义的潜在空间在机器人行动条件潜在扩散世界模型中的应用。研究发现,像V-JEPA 2.1这样的语义编码器在策略相关指标上通常优于重建编码器,从而主张将语义潜在空间作为机器人世界模型的更强基础。

0 人收藏 0 人点赞
#video-prediction

CRONOS:评估视频模型中反事实物理一致性的基准

Hugging Face Daily Papers · 2026-05-22 缓存

CRONOS是一个基准测试,通过在保持物理事件类型不变的情况下对视角、场景、物体类别和外观进行干预,来评估视频预测模型的反事实物理一致性。它揭示了当前视频生成器的重大缺陷。

0 人收藏 0 人点赞
#video-prediction

表征先于像素:语义引导的分层视频预测

Hugging Face Daily Papers · 2026-04-13 缓存

Re2Pix 是一个分层视频预测框架,通过首先使用冻结的视觉基础模型预测语义表征,然后将这些预测作为条件输入到潜在扩散模型中以生成逼真的帧,从而改进未来视频生成。该方法通过嵌套丢弃和混合监督策略解决了训练-测试不匹配问题,在自动驾驶基准测试中实现了更好的时间语义一致性和感知质量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈