open-vocabulary

#open-vocabulary

Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

arXiv cs.AI ↗ · 2026-06-08 Cached

Proposes a hierarchical semantic-constrained heterogeneous graph model for open-vocabulary audio-visual event localization, addressing cross-modal consistency at multiple temporal scales and hierarchical semantic constraints between segment and video levels. Achieves state-of-the-art results on OV-AVEL benchmark.

0 favorites 0 likes

#open-vocabulary

VoLo: A Physical Orchestrator for Open-Vocabulary Long-Horizon Manipulation

Hugging Face Daily Papers ↗ · 2026-06-05 Cached

VoLoAgent integrates vision-language models with robot capabilities for open-vocabulary long-horizon manipulation tasks, introducing a physical orchestrator that plans, monitors, and recovers using interruptible tools, and a benchmark called RoboVoLo for evaluation.

0 favorites 0 likes

#open-vocabulary

Diffusion Model as a Generalist Segmentation Learner

Hugging Face Daily Papers ↗ · 2026-04-27 Cached

This paper introduces DiGSeg, a framework that repurposes pretrained diffusion models for state-of-the-art semantic and open-vocabulary segmentation by leveraging latent space conditioning and text-guided alignment.

0 favorites 0 likes

#open-vocabulary

adirik/grounding-dino

Replicate Explore ↗ · 2026-05-08 Cached

Grounding DINO is an open-vocabulary object detection model that can detect arbitrary objects based on text descriptions, now available on Replicate.

0 favorites 0 likes

open-vocabulary

Hierarchical Semantic-Constrained Heterogeneous Graph for Audio-Visual Event Localization

VoLo: A Physical Orchestrator for Open-Vocabulary Long-Horizon Manipulation

Diffusion Model as a Generalist Segmentation Learner

adirik/grounding-dino

Submit Feedback