decision-transformer

#decision-transformer

Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning

arXiv cs.LG ↗ · 2026-05-29 Cached

This paper proposes Q-align DT, a framework that aligns return-to-go with Q-values to improve controllability and performance in offline reinforcement learning, achieving superior results on D4RL benchmarks.

0 favorites 0 likes

#decision-transformer

SeDT: Sentence-Transformer Decision-Transformer Conditioning for Multi-Turn Conversation Reliability

arXiv cs.CL ↗ · 2026-05-27 Cached

The paper introduces SeDT, a training-free inference-time method that improves LLM reliability in multi-turn conversations by annotating conversation history with cumulative relevance scores from three signals, achieving up to +37.7% performance gains on the Lost-in-Conversation benchmark.

0 favorites 0 likes

#decision-transformer

Generative Auto-Bidding with Unified Modeling and Exploration

arXiv cs.AI ↗ · 2026-05-20 Cached

This paper introduces Guide, a framework that combines a Decision Transformer with Q-value guidance and an inverse dynamics module to balance exploration and safety in automated bidding for digital advertising, demonstrating effectiveness on public datasets and simulated auctions.

0 favorites 0 likes

decision-transformer

Return-to-Go Is More Than a Number: Q-Guided Alignment for Return-Conditioned Supervised Learning

SeDT: Sentence-Transformer Decision-Transformer Conditioning for Multi-Turn Conversation Reliability

Generative Auto-Bidding with Unified Modeling and Exploration

Submit Feedback