answer-conditioned

标签

Cards List
#answer-conditioned

InfoMem: 使用答案条件信息增益训练长上下文记忆代理

arXiv cs.AI · 2026-06-03 缓存

InfoMem 引入了一种用于训练分块记忆代理的奖励机制,该机制使用答案条件信息增益评估最终记忆的效用,在同一强化学习框架下提升了长上下文记忆代理的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈