标签
本文提出了 Q-align DT 框架,该框架将 return-to-go 与 Q 值对齐,以提高离线强化学习中的可控性和性能,在 D4RL 基准上取得了优异的结果。
本文介绍了SeDT,一种无需训练、推理时的方法,通过用来自三种信号的累积相关性分数标注对话历史,提高多轮对话中LLM的可靠性,在Lost-in-Conversation基准测试上实现了高达+37.7%的性能提升。
本文介绍了Guide框架,该框架结合了决策Transformer、Q值引导和逆动力学模块,在数字广告自动出价中平衡探索与安全性,并在公开数据集和模拟拍卖中展示了有效性。