bradley-terry

#bradley-terry

Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

Hugging Face Daily Papers ↗ · 4d ago Cached

Reasoning Arena improves reinforcement learning with verifiable rewards by using trace tournaments and Bradley-Terry models to generate meaningful gradients from non-diverse reward groups, resulting in faster training and better reasoning performance.

0 favorites 0 likes

#bradley-terry

Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

arXiv cs.AI ↗ · 2026-05-19 Cached

This paper introduces ECC, an algorithm that calibrates semantic embeddings with limited model comparisons to cluster queries by latent capability requirements, improving LLM capability ranking quality by over 17 percentage points over baselines.

0 favorites 0 likes

#bradley-terry

HumorRank: A Tournament-Based Leaderboard for Evaluating Humor Generation in Large Language Models

arXiv cs.CL ↗ · 2026-04-23 Cached

HumorRank introduces a tournament-based leaderboard using pairwise evaluations and Bradley-Terry MLE to rank LLMs on humor generation, showing humor quality depends on comedic mastery rather than scale.

0 favorites 0 likes

bradley-terry

Reasoning Arena: Trace Tournaments When Verifiable Rewards Fall Short

Capturing LLM Capabilities via Evidence-Calibrated Query Clustering

HumorRank: A Tournament-Based Leaderboard for Evaluating Humor Generation in Large Language Models

Submit Feedback