reasoning-quality

#reasoning-quality

Early-Token Confidence Predicts Reasoning Quality in Multi-Agent LLM Debate

arXiv cs.CL ↗ · 2d ago Cached

This paper investigates whether early-token confidence signals from LLM decoding can predict reasoning quality in multi-agent debate systems, finding that confidence in the first few generated tokens is the strongest predictor of rubric-based essay scores.

0 favorites 0 likes

#reasoning-quality

The Confident Liar: Diagnosing Multi-Agent Debate with Log-Probabilities and LLM-as-Judge

arXiv cs.CL ↗ · 2d ago Cached

This paper studies the relationship between token-level log-probability distributions, LLM-as-judge rubric scores, and final task accuracy in multi-agent debate systems. It finds a consistent four-phase confidence trajectory and role asymmetry between Constructor and Auditor agents.

0 favorites 0 likes

#reasoning-quality

Revisiting the Uniform Information Density Hypothesis in LLM Reasoning

arXiv cs.CL ↗ · 2026-04-20 Cached

This paper revisits the Uniform Information Density (UID) hypothesis in the context of LLM reasoning, introducing an entropy-based framework to quantify information flow uniformity. Across seven reasoning benchmarks, the authors find that high-quality reasoning exhibits local uniformity in step transitions but global non-uniformity in trajectory structure, suggesting LLM reasoning differs fundamentally from human communication patterns.

0 favorites 0 likes

reasoning-quality

Early-Token Confidence Predicts Reasoning Quality in Multi-Agent LLM Debate

The Confident Liar: Diagnosing Multi-Agent Debate with Log-Probabilities and LLM-as-Judge

Revisiting the Uniform Information Density Hypothesis in LLM Reasoning

Submit Feedback