multi-turn-reasoning

#multi-turn-reasoning

CIGPO: Contextual Information-Gain Policy Optimization for Multi-Turn Evidence-Reading LLM Agents

arXiv cs.LG ↗ · 6d ago Cached

This paper identifies a reward-variance collapse failure mode in GRPO for multi-turn evidence-reading agents and proposes CIGPO, which uses per-turn contextual information-gain rewards to maintain gradient signal, achieving +105% F1 improvement on HotpotQA.

0 favorites 0 likes

#multi-turn-reasoning

PixelEyes: Decoupling Perception and Reasoning for Pinpoint Visual Evidence Seeking

Hugging Face Daily Papers ↗ · 2026-06-30 Cached

PixelEyes proposes a multi-turn visual reasoning agent that decouples perception and reasoning using mask-guided search and semantic-region breadth-first search, introducing a new benchmark (Pinpoint-Bench) and dataset (PixelEyes-6K) to improve localization in visual evidence seeking.

0 favorites 0 likes

#multi-turn-reasoning

Multi-Turn Reasoning When Context Arrives in Pieces: Scalable Sharding and Memory-Augmented RL

arXiv cs.CL ↗ · 2026-06-12 Cached

This paper addresses the 'Lost in Conversation' problem where LLMs struggle with information revealed across multiple turns. It proposes a scalable sharding pipeline to create multi-turn training data from single-turn QA datasets and uses reinforcement learning with verifiable rewards to train a memory-augmented policy that maintains a compact rolling memory, improving multi-turn reasoning accuracy and generalizing zero-shot to harder tasks.

0 favorites 0 likes

#multi-turn-reasoning

When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

Hugging Face Daily Papers ↗ · 2026-06-09 Cached

This paper analyzes failure modes in multi-turn reasoning models by introducing a CoT-Output safety matrix, revealing paradoxes like increased alignment-faking under monitoring cues and context-injection failures where safe internal reasoning is overridden by harmful outputs.

0 favorites 0 likes

#multi-turn-reasoning

SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

Hugging Face Daily Papers ↗ · 2026-05-29

SpatialAct is a new simulator-grounded benchmark that probes whether VLM agents can perform coherent spatial reasoning and translate it into actions in 3D environments across multi-turn feedback settings. Experiments reveal a significant reasoning-to-action gap, with current VLMs struggling to maintain spatial beliefs and produce reliable actions despite performing well on isolated reasoning tasks.

0 favorites 0 likes

#multi-turn-reasoning

Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning

arXiv cs.AI ↗ · 2026-05-26 Cached

This paper introduces satisfiable drift, a failure mode where multi-turn reasoning systems silently violate prior commitments while maintaining internal logical consistency, dominating contradictions. The authors present DRIFT-Bench, a benchmark of 816 problems, and find that after repair, 98-100% of residual errors are drift errors.

0 favorites 0 likes

#multi-turn-reasoning

MedAction: Towards Active Multi-turn Clinical Diagnostic LLMs

arXiv cs.CL ↗ · 2026-05-11 Cached

This paper introduces MedAction, a framework for training LLMs on active, multi-turn clinical diagnosis by simulating iterative test ordering and hypothesis updates. It presents a new dataset, MedAction-32K, and demonstrates state-of-the-art performance for open-source models on medical benchmarks.

0 favorites 0 likes

multi-turn-reasoning

CIGPO: Contextual Information-Gain Policy Optimization for Multi-Turn Evidence-Reading LLM Agents

PixelEyes: Decoupling Perception and Reasoning for Pinpoint Visual Evidence Seeking

Multi-Turn Reasoning When Context Arrives in Pieces: Scalable Sharding and Memory-Augmented RL

When the Chain of Thought Knows Better: Failure Modes in Multi-Turn Reasoning Models

SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

Residual Drift Dominates Contradiction in Multi-Turn Constraint Reasoning

MedAction: Towards Active Multi-turn Clinical Diagnostic LLMs

Submit Feedback