credit-assignment

#credit-assignment

Know When to Stop: Segment-Level Credit Assignment for Reducing Overthinking

arXiv cs.CL ↗ · 8h ago Cached

This paper introduces DASH, a method that uses intermediate answer commitments within reasoning traces to assign segment-level credit, reducing overthinking behaviors and improving accuracy on competition-level math benchmarks.

0 favorites 0 likes

#credit-assignment

TRIAGE: Role-Typed Credit Assignment for Agentic Reinforcement Learning

Hugging Face Daily Papers ↗ · 2d ago Cached

Introduces TRIAGE, a role-typed credit assignment framework that improves agentic reinforcement learning by providing more nuanced credit assignment than standard GRPO methods, using a structured judge to classify action segments and assign process rewards based on semantic roles.

0 favorites 0 likes

#credit-assignment

The Weakest Link Tells It All: Outcome-Supervised Process Reward Modeling via Learnable Credit Assignment

arXiv cs.LG ↗ · 3d ago Cached

This paper proposes Outcome-Supervised Process Reward Modeling via Learnable Credit Assignment (LCA), a framework that jointly learns credit assignment and reward modeling under a weakest-link principle, formulated as a Multiple Instance Learning problem with Softmax-Weighted-Sum pooling. Experiments show it outperforms existing outcome-supervised PRMs across multiple tasks.

0 favorites 0 likes

#credit-assignment

TACO: Tool-Augmented Credit Optimization for Agentic Tool Use

Hugging Face Daily Papers ↗ · 3d ago Cached

TACO introduces a novel credit optimization method for code-tool agents that uses a differential reward probe and outcome-gated advantage routing to distinguish useful from redundant or misleading tool calls, improving multimodal agent performance.

0 favorites 0 likes

#credit-assignment

BiPACE: Bisimulation-Guided Policy Optimization with Action Counterfactual Estimation for LLM Agents

arXiv cs.CL ↗ · 2026-06-25 Cached

BiPACE introduces a drop-in advantage estimator that fixes state-action credit mismatch in stepwise group-based RL for LLM agents, using bisimulation-guided state clustering and action counterfactual estimation, achieving significant performance gains on ALFWorld, WebShop, and TextCraft with Qwen2.5 models.

0 favorites 0 likes

#credit-assignment

@Ankur_Samanta_: New work on credit assignment in multi-step reasoning RL post-training Introducing Self-Reset Policy Optimization (SRPO…

X AI KOLs Timeline ↗ · 2026-06-22 Cached

Self-Reset Policy Optimization (SRPO) addresses credit assignment in multi-step reasoning RL post-training by localizing the first wrong reasoning step and learning from counterfactual continuations without external supervision.

0 favorites 0 likes

#credit-assignment

GAGPO: Generalized Advantage Grouped Policy Optimization

arXiv cs.AI ↗ · 2026-06-15 Cached

GAGPO proposes a critic-free RL method that uses a non-parametric grouped value proxy for step-level credit assignment in multi-turn agentic tasks, outperforming strong baselines on ALFWorld and WebShop.

0 favorites 0 likes

#credit-assignment

Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

Hugging Face Daily Papers ↗ · 2026-06-15 Cached

This paper proposes Hierarchical Advantage-Weighted Behavior Cloning (HABC) for fine-tuning Vision-Language-Action (VLA) policies using online reinforcement learning with sparse binary episode outcomes. HABC separates viability and efficiency objectives via adaptive critic heads and intervention-aware credit assignment, significantly improving success rates on contact-rich bimanual manipulation tasks.

0 favorites 0 likes

#credit-assignment

APPO: Agentic Procedural Policy Optimization

Hugging Face Daily Papers ↗ · 2026-06-10 Cached

APPO improves multi-turn tool-use in LLM agents by refining branching decisions and credit assignment using fine-grained decision points and procedure-level advantage scaling, outperforming baselines by 4 points on 13 benchmarks.

0 favorites 0 likes

#credit-assignment

Forward-Only Convolutional Neural Networks with Learnable Channel-Class Assignment

arXiv cs.LG ↗ · 2026-06-10 Cached

This paper introduces a learnable channel-class assignment mechanism for forward-only convolutional neural networks, combined with entropy and orthogonality regularization and a loss-aware layer contribution strategy. The method achieves state-of-the-art performance among forward-forward algorithms on CIFAR-10, CIFAR-100, and Tiny-ImageNet, significantly narrowing the gap with backpropagation.

0 favorites 0 likes

#credit-assignment

LEAF: Growing Trees Without Branching for Speech-Aware Large Language Model Post-Training

arXiv cs.LG ↗ · 2026-06-09 Cached

This paper proposes LEAF, a retrospective tree-based reinforcement learning method for speech-aware large language model post-training that improves credit assignment without online branching. LEAF outperforms GRPO on speech question answering and speech translation benchmarks.

0 favorites 0 likes

#credit-assignment

PBSD: Privileged Bayesian Self-Distillation for Long-Horizon Credit Assignment

Hugging Face Daily Papers ↗ · 2026-06-08 Cached

PBSD proposes a Bayesian self-distillation method that converts sparse final rewards into calibrated turn-level credit signals for long-horizon agentic tasks, improving policy learning and generalization.

0 favorites 0 likes

#credit-assignment

StepPO: Step-Aligned Policy Optimization for Agentic Reinforcement Learning

Hugging Face Daily Papers ↗ · 2026-06-05 Cached

StepPO introduces a step-centric paradigm for agentic reinforcement learning that aligns policy optimization with agent decision granularity, outperforming token-centric methods in multi-turn interaction tasks.

0 favorites 0 likes

#credit-assignment

ARCA: Adapter-Residual Credit Assignment When Token Signals Degenerate

arXiv cs.LG ↗ · 2026-06-02 Cached

This paper identifies a structural failure mode in token-level credit assignment for LLM reinforcement learning when using LoRA, where intrinsic signals degenerate. It proposes Adapter-Residual Credit Assignment (ARCA), which derives token salience from adapter hidden-state residuals and remains competitive with baselines.

0 favorites 0 likes

#credit-assignment

SPADER: Step-wise Peer Advantage with Diversity-Aware Exploration Rewards for Multi-Answer Question Answering

arXiv cs.CL ↗ · 2026-06-02 Cached

This paper presents SPADER, a reinforcement learning framework for multi-answer QA that uses step-wise peer advantage for credit assignment and diversity-aware exploration rewards to improve recall of long-tail entities, achieving better performance on several benchmarks.

0 favorites 0 likes

#credit-assignment

Score Broadcast and Decorrelation: A General Framework for Broadcast-Based Credit Assignment

arXiv cs.LG ↗ · 2026-06-01 Cached

Introduces Score Broadcast and Decorrelation (SBD), a principled framework for broadcast-based credit assignment that generalizes to differentiable loss families including cross-entropy, Bregman divergences, and proper scoring rules. The work provides theoretical grounding for the three-factor learning rule and demonstrates improved performance over existing broadcast approaches on CIFAR-10 and Tiny ImageNet.

0 favorites 0 likes

#credit-assignment

Planner-Centric Reinforcement Learning for Deep Research with Structure-Aware Reward

arXiv cs.AI ↗ · 2026-06-01 Cached

DecomposeR introduces a planner-centric reinforcement learning framework that represents research plans as typed DAGs, enabling finer-grained optimization of planning and execution for deep research tasks, achieving 5.1–8.0 point improvements over open baselines.

0 favorites 0 likes

#credit-assignment

VeriGate: Verifier-Gated Step-Level Supervision for GRPO

arXiv cs.LG ↗ · 2026-06-01 Cached

VeriGate extends GRPO with verifier-gated step-level supervision, providing fine-grained credit assignment when verifier rewards are degenerate. It achieves substantial accuracy improvements on reasoning benchmarks for 1.5B and 7B models.

0 favorites 0 likes

#credit-assignment

PRO-CUA: Process-Reward Optimization for Computer Use Agents

arXiv cs.AI ↗ · 2026-05-29 Cached

This paper introduces PRO-CUA, a process-reward optimization framework for training Computer Use Agents (CUAs) using iterative step-level reinforcement learning. The method decouples on-policy environment interaction from policy optimization, enabling dense credit assignment without relying on expert trajectories, and demonstrates effectiveness on live web benchmarks.

0 favorites 0 likes

#credit-assignment

Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization

Hugging Face Daily Papers ↗ · 2026-05-29 Cached

This paper introduces Guidance Contrastive Policy Optimization (GCPO), a novel algorithm that enables per-token credit assignment in reinforcement learning by contrasting model predictions under positive and negative prompts, consistently outperforming GRPO and DAPO baselines on text-to-image generation and chain-of-thought reasoning benchmarks.

0 favorites 0 likes

credit-assignment

Submit Feedback