decision-transformer

#decision-transformer

Return-to-Go 不仅仅是数字：用于返回条件监督学习的 Q 引导对齐

arXiv cs.LG ↗ · 2026-05-29 缓存

本文提出了 Q-align DT 框架，该框架将 return-to-go 与 Q 值对齐，以提高离线强化学习中的可控性和性能，在 D4RL 基准上取得了优异的结果。

0 人收藏 0 人点赞

#decision-transformer

arXiv cs.CL ↗ · 2026-05-27 缓存

本文介绍了SeDT，一种无需训练、推理时的方法，通过用来自三种信号的累积相关性分数标注对话历史，提高多轮对话中LLM的可靠性，在Lost-in-Conversation基准测试上实现了高达+37.7%的性能提升。

0 人收藏 0 人点赞

#decision-transformer

arXiv cs.AI ↗ · 2026-05-20 缓存

本文介绍了Guide框架，该框架结合了决策Transformer、Q值引导和逆动力学模块，在数字广告自动出价中平衡探索与安全性，并在公开数据集和模拟拍卖中展示了有效性。

0 人收藏 0 人点赞