credit-assignment

#credit-assignment

Not All Turns Matter: Credit Assignment for Multi-Turn Jailbreaking

arXiv cs.AI ↗ · yesterday Cached

This paper introduces TRACE, a framework for turn-aware credit assignment in multi-turn LLM jailbreaking attacks using reinforcement learning, claiming significant improvements in attack success rates and defense alignment.

0 favorites 0 likes

#credit-assignment

MemQ: Integrating Q-Learning into Self-Evolving Memory Agents over Provenance DAGs

arXiv cs.AI ↗ · yesterday Cached

The paper introduces MemQ, a method that integrates Q-learning into self-evolving memory agents by using eligibility traces over provenance DAGs to solve credit assignment problems in episodic memory retrieval.

0 favorites 0 likes

#credit-assignment

Structured Role-Aware Policy Optimization for Multimodal Reasoning

arXiv cs.AI ↗ · 2d ago Cached

This paper introduces Structured Role-Aware Policy Optimization (SRPO), a method that improves multimodal reasoning in Large Vision-Language Models by assigning token-level credit based on distinct perception and reasoning roles within reinforcement learning frameworks.

0 favorites 0 likes

#credit-assignment

Milestone-Guided Policy Learning for Long-Horizon Language Agents

arXiv cs.CL ↗ · 5d ago Cached

This paper introduces BEACON, a milestone-guided policy learning framework designed to improve credit assignment and sample efficiency for long-horizon language agents. It demonstrates significant performance improvements over GRPO and GiGPO on benchmarks like ALFWorld, WebShop, and ScienceWorld.

0 favorites 0 likes

#credit-assignment

Internalizing Outcome Supervision into Process Supervision: A New Paradigm for Reinforcement Learning for Reasoning

arXiv cs.LG ↗ · 5d ago Cached

Introduces IOP, a framework that internalizes outcome supervision into process supervision for reasoning reinforcement learning, enabling fine-grained credit assignment without external annotations.

0 favorites 0 likes

#credit-assignment

AEM: Adaptive Entropy Modulation for Multi-Turn Agentic Reinforcement Learning

Hugging Face Daily Papers ↗ · 5d ago Cached

This paper introduces AEM, a supervision-free method for agentic reinforcement learning that adapts entropy dynamics at the response level to improve exploration-exploitation trade-offs. It demonstrates performance gains on benchmarks like ALFWorld and SWE-bench by aligning uncertainty estimation with action granularity.

0 favorites 0 likes

#credit-assignment

A^2TGPO: Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping

Hugging Face Daily Papers ↗ · 6d ago Cached

This paper introduces A^2TGPO, a reinforcement learning method for agentic LLMs that uses adaptive turn-level clipping and information gain normalization to improve process credit assignment in multi-turn interactions.

0 favorites 0 likes

#credit-assignment

SAVOIR: Learning Social Savoir-Faire via Shapley-based Reward Attribution

Hugging Face Daily Papers ↗ · 2026-04-21 Cached

SAVOIR framework applies cooperative game theory and Shapley values to train language agents with improved social intelligence, achieving SOTA on SOTOPIA benchmark and matching GPT-4o performance.

0 favorites 0 likes

credit-assignment

Submit Feedback