visual-claims

#visual-claims

ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

arXiv cs.LG ↗ · 2026-05-21 Cached

Introduces ClaimDiff-RL, a reinforcement learning framework for long-form image captioning that uses typed, verifiable claim differences as reward units to separately measure and balance hallucination and missing facts, improving faithfulness and coverage.

0 favorites 0 likes

visual-claims

ClaimDiff-RL: Fine-Grained Caption Reinforcement Learning through Visual Claim Comparison

Submit Feedback