rubric-based

#rubric-based

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

Hugging Face Daily Papers ↗ · 2026-05-27 Cached

RUBRIC-ARROW presents an alternating framework for reward modeling that improves upon rubric-based methods by reducing ties and leveraging pairwise preference data, achieving competitive accuracy and gains for LLM post-training in non-verifiable domains.

0 favorites 0 likes

#rubric-based

Rubric-based On-policy Distillation

Hugging Face Daily Papers ↗ · 2026-05-08 Cached

This paper introduces ROPD, a rubric-based on-policy distillation framework that achieves superior sample efficiency compared to traditional logit-based methods. It enables model alignment in black-box scenarios by using structured semantic rubrics instead of teacher logits.

0 favorites 0 likes

rubric-based

RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

Rubric-based On-policy Distillation

Submit Feedback