multi-image

#multi-image

ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection

Hugging Face Daily Papers ↗ · yesterday Cached

ReMMD introduces a realistic multilingual multi-image agentic verification framework for multimodal misinformation detection, including a benchmark (ReMMDBench) with 500 samples and 2,756 images, and an agent (ReMMD-Agent) that achieves superior veracity performance with reduced costs.

0 favorites 0 likes

#multi-image

IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Hugging Face Daily Papers ↗ · 2026-06-12 Cached

IndustryBench-MIPU is a large-scale benchmark for multi-image industrial product understanding, evaluating 9 MLLMs and revealing a completeness gap where precision is high but attribute recovery is low.

0 favorites 0 likes

#multi-image

Stateful Visual Encoders for Vision-Language Models

Hugging Face Daily Papers ↗ · 2026-06-03 Cached

This paper introduces a stateful visual encoder for vision-language models that conditions visual representations on prior features, enabling better visual comparison in multi-image and agentic settings. The method shows consistent improvements across tasks such as cross-image spatial aggregation and longitudinal radiology.

0 favorites 0 likes

multi-image

ReMMD: Realistic Multilingual Multi-Image Agentic Verification for Multimodal Misinformation Detection

IndustryBench-MIPU: Benchmarking Multi-Image Attribute Value Extraction for Industrial Products

Stateful Visual Encoders for Vision-Language Models

Submit Feedback