decision-transformer

标签

Cards List
#decision-transformer

Return-to-Go 不仅仅是数字:用于返回条件监督学习的 Q 引导对齐

arXiv cs.LG · 2026-05-29 缓存

本文提出了 Q-align DT 框架,该框架将 return-to-go 与 Q 值对齐,以提高离线强化学习中的可控性和性能,在 D4RL 基准上取得了优异的结果。

0 人收藏 0 人点赞
#decision-transformer

SeDT: Sentence-Transformer Decision-Transformer条件化用于多轮对话可靠性

arXiv cs.CL · 2026-05-27 缓存

本文介绍了SeDT,一种无需训练、推理时的方法,通过用来自三种信号的累积相关性分数标注对话历史,提高多轮对话中LLM的可靠性,在Lost-in-Conversation基准测试上实现了高达+37.7%的性能提升。

0 人收藏 0 人点赞
#decision-transformer

统一建模与探索的生成式自动竞价

arXiv cs.AI · 2026-05-20 缓存

本文介绍了Guide框架,该框架结合了决策Transformer、Q值引导和逆动力学模块,在数字广告自动出价中平衡探索与安全性,并在公开数据集和模拟拍卖中展示了有效性。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈