video-understanding

#video-understanding

EasyVideoR1: Easier RL for Video Understanding

Hugging Face Daily Papers ↗ · 2026-04-18 Cached

EasyVideoR1 is an efficient reinforcement learning framework for training large vision-language models on video understanding tasks, featuring offline preprocessing with tensor caching for 1.47x throughput improvement, a task-aware reward system covering 11 problem types, and evaluation across 22 video benchmarks. It also supports joint image-video training and a mixed offline-online data training paradigm.

0 favorites 0 likes

#video-understanding

Pegasus 1.5 by TwelveLabs

Product Hunt ↗ · 2026-04-14

Pegasus 1.5 is an AI model by TwelveLabs designed to transform video content into time-based metadata, enabling automated video understanding and indexing.

0 favorites 0 likes

#video-understanding

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Hugging Face Daily Papers ↗ · 2026-04-13 Cached

This paper introduces OmniScript, an 8B-parameter omni-modal (audio-visual) language model for a novel video-to-script (V2S) task that generates hierarchical, scene-by-scene scripts from long-form cinematic videos. Trained via progressive pipeline techniques including chain-of-thought SFT and reinforcement learning with temporally segmented rewards, OmniScript outperforms larger open-source models and rivals proprietary models like Gemini 3-Pro.

0 favorites 0 likes

video-understanding

EasyVideoR1: Easier RL for Video Understanding

Pegasus 1.5 by TwelveLabs

OmniScript: Towards Audio-Visual Script Generation for Long-Form Cinematic Video

Submit Feedback