policy-optimization

#policy-optimization

Teaching the Way, Not the Answer: Privileged Tutoring Distillation for Multimodal Policy Optimization

arXiv cs.AI ↗ · yesterday Cached

This paper proposes PTD-PO, a privileged tutoring distillation framework that provides dense token-level supervision for reinforcement learning with verifiable rewards in multimodal reasoning tasks, without exposing the answer. It uses structured hints and a Top-K JS divergence objective to stabilize training, consistently outperforming existing methods on 2B-8B LVLMs.

0 favorites 0 likes

#policy-optimization

@TheTuringPost: 15 Policy Optimization and Preference Optimization techniques important in 2026 GRPO DPO REINFORCE++ DAPO (Dynamic sAmp…

X AI KOLs Timeline ↗ · yesterday Cached

A comprehensive guide to 15 policy optimization and preference optimization techniques important in 2026, including GRPO, DPO, REINFORCE++, and many newer variants, mapping the landscape of reasoning RL methods.

0 favorites 0 likes

#policy-optimization

RL Excursions during Pre-Training: Re-examining Policy Optimization for LLM training

arXiv cs.LG ↗ · 5d ago Cached

Harvard researchers challenge the standard LLM training pipeline by showing RL can be effectively applied during pre-training rather than only after SFT, finding that data composition matters more than model scale, and proposing parallel averaging of RL and SFT objectives that outperforms sequential approaches while preserving general capabilities.

0 favorites 0 likes

#policy-optimization

Towards One-to-Many Temporal Grounding

Hugging Face Daily Papers ↗ · 5d ago Cached

This paper introduces One-to-Many Temporal Grounding (OMTG), a new task for localizing multiple disjoint video segments from a single text query, along with a benchmark, evaluation metrics, a 56k-sample dataset, and novel reward functions that achieve state-of-the-art results, outperforming Gemini 2.5 Pro and Seed-1.8.

0 favorites 0 likes

#policy-optimization

Hint-Guided Diversified Policy Optimization for LLM Reasoning

arXiv cs.CL ↗ · 6d ago Cached

This paper introduces Hint-Guided Diversified Policy Optimization (HDPO), a two-stage RL framework that encourages LLMs to first generate multiple candidate solution outlines (hints) and then select the most reliable one for detailed reasoning, improving reasoning diversity and reliability.

0 favorites 0 likes

#policy-optimization

Fair Reinforcement Learning

Reddit r/AI_Agents ↗ · 2026-06-02

Fair Reinforcement Learning introduces Democratic Alignment to incorporate multiple competing value sets from different agents, overcoming traditional RLHF limitations, and achieves orders of magnitude faster optimization via a black-box policy wrapper.

0 favorites 0 likes

#policy-optimization

Regularized Offline Policy Optimization with Posterior Hybrid Bayesian Belief

arXiv cs.AI ↗ · 2026-06-02 Cached

This paper introduces Posterior Hybrid Bayesian Belief (PhyB), a framework that reformulates the expectation in Bayesian RL as a convex combination over dynamics models, enabling efficient regularized offline policy optimization with bounded objective discrepancy and state-of-the-art performance.

0 favorites 0 likes

#policy-optimization

Moment Matching Q-Learning

arXiv cs.LG ↗ · 2026-05-29 Cached

Moment Matching Q-Learning (MoMa QL) uses maximum mean discrepancy to match all moment statistics for distribution-level convergence in offline RL, achieving computational efficiency and strong performance on D4RL tasks.

0 favorites 0 likes

#policy-optimization

Guidance Contrastive Token Credit Assignment for Discrete Policy Optimization

Hugging Face Daily Papers ↗ · 2026-05-29 Cached

This paper introduces Guidance Contrastive Policy Optimization (GCPO), a novel algorithm that enables per-token credit assignment in reinforcement learning by contrasting model predictions under positive and negative prompts, consistently outperforming GRPO and DAPO baselines on text-to-image generation and chain-of-thought reasoning benchmarks.

0 favorites 0 likes

#policy-optimization

Meta-Cognitive Memory Policy Optimization for Long-Horizon LLM Agents

Hugging Face Daily Papers ↗ · 2026-05-28 Cached

Introduces Belief Entropy and Metacognitive Memory Policy Optimization (MMPO) to improve memory quality in long-horizon LLM agents, outperforming existing methods and maintaining performance over long contexts.

0 favorites 0 likes

#policy-optimization

Scaling World-Model Reinforcement Learning Through Diffusion Policy Optimization

arXiv cs.LG ↗ · 2026-05-27 Cached

Proposes Model-Based Diffusion Policy Optimization (MBDPO), a framework that unifies search and policy optimization in world models using diffusion policy representations, achieving consistent scaling behavior and superior performance across offline and online reinforcement learning tasks.

0 favorites 0 likes

#policy-optimization

RICE-PO: Turning Retrieval Interactions into Credit Signals for Reasoning Agents

arXiv cs.CL ↗ · 2026-05-27 Cached

RICE-PO is a critic-free policy optimization framework that turns retrieval interactions into localized credit signals for training reasoning agents, outperforming prompt-based and group-based RL baselines on BRIGHT and BEIR benchmarks.

0 favorites 0 likes

#policy-optimization

Generative OOD-regularized Model-based Policy Optimization

arXiv cs.LG ↗ · 2026-05-26 Cached

Introduces GORMPO, a density-regularized offline RL algorithm that uses generative density modeling to restrict policy updates to high-density areas, achieving 17% improvement on a real-world medical dataset and outperforming state-of-the-art baselines.

0 favorites 0 likes

#policy-optimization

Not only where, But when: Temporal Scheduling for RLVR

Hugging Face Daily Papers ↗ · 2026-05-25 Cached

Introduces temporal scheduling for credit allocation criteria in reinforcement learning with verifiable rewards, showing that scheduling when learning signals are applied improves policy evolution and stability.

0 favorites 0 likes

#policy-optimization

Vector Policy Optimization: Training for Diversity Improves Test-Time Search

Reddit r/LocalLLaMA ↗ · 2026-05-22 Cached

This paper introduces Vector Policy Optimization (VPO), a reinforcement learning algorithm that trains LLMs to produce diverse solutions by optimizing across multiple reward dimensions, significantly improving test-time search performance compared to scalar RL baselines.

0 favorites 0 likes

#policy-optimization

@ishapuri101: It's never made sense to me that RL collapses all reward signals to a single scalar. Today, we fix that! Introducing Ve…

X AI KOLs Timeline ↗ · 2026-05-22 Cached

Introduces Vector Policy Optimization (VPO) to train models with vector-valued rewards instead of scalar rewards, enabling diverse answer sets for test-time search.

0 favorites 0 likes

#policy-optimization

TEMPO: Temporal Enforcement via Mode-Separated Policy Optimization for Trustworthy LLM Backtesting

arXiv cs.LG ↗ · 2026-05-20

Proposes TEMPO, a policy optimization method that trains LLMs to reason exclusively from pre-cutoff information by using a two-mode reward and GRPO-based training, reducing knowledge leakage by 2–13% while improving task performance by 6–13%.

0 favorites 0 likes

#policy-optimization

LambdaPO: A Lambda Style Policy Optimization for Reasoning Language Models

arXiv cs.CL ↗ · 2026-05-20 Cached

Introduces LambdaPO, a novel reinforcement learning framework that improves upon GRPO by decomposing advantage estimation into pairwise preference comparisons and adding a semantic density reward, achieving better performance on math reasoning tasks.

0 favorites 0 likes

#policy-optimization

DACA-GRPO: Denoising-Aware Credit Assignment for Reinforcement Learning in Diffusion Language Models

arXiv cs.LG ↗ · 2026-05-19 Cached

This paper identifies weaknesses in existing reinforcement learning methods for diffusion language models—lack of temporal credit assignment and biased likelihood estimates—and proposes DACA-GRPO, a plug-and-play enhancement that introduces denoising progress scores and stratified masking likelihood, achieving consistent improvements across reasoning, code generation, and constrained generation benchmarks.

0 favorites 0 likes

#policy-optimization

Reducing Credit Assignment Variance via Counterfactual Reasoning Paths

arXiv cs.LG ↗ · 2026-05-19 Cached

Introduces Implicit Behavior Policy Optimization (IBPO), a counterfactual comparison-based credit assignment framework that improves training stability and performance in multi-step reasoning tasks for large language models by converting sparse terminal rewards into step-sensitive learning signals.

0 favorites 0 likes

policy-optimization

Submit Feedback