标签
InfoMem 引入了一种用于训练分块记忆代理的奖励机制,该机制使用答案条件信息增益评估最终记忆的效用,在同一强化学习框架下提升了长上下文记忆代理的性能。
提出了一种目标导向的澄清框架,利用信息增益奖励训练LLM代理,在用户指令不明确的情况下提出有效的澄清问题,在仅增加少量交互开销的情况下,将任务成功率提升了3.7%。
本文提出MARS,一种单锚多源推理框架,利用动态锚定量化信息增益,并在基于可验证奖励的强化学习过程中调节模态交互,在GRPO和DAPO上分别实现了3.2%和4.9%的性能提升,涵盖多个数据集。
本文介绍了会话信息增益(CIG)框架,用于通过跟踪不断演变的语义记忆来衡量发言如何推进审议对话中的集体理解,并根据新颖性、相关性和蕴含范围对发言进行评分。作者证明了基于记忆的动态与人类感知的对话质量相关性强于传统启发式方法,并开发了基于LLM的信息中心会话分析预测器。