标签
CoreMem提出了一种资源高效的边缘-云端内存架构,用于对话代理,采用基于Fisher-Rao度量的黎曼检索和Fisher引导的离散令牌蒸馏,在8 GB VRAM预算内实现了显著的准确性提升。
G-Long 提出了一种用于长期对话代理的图增强内存管理框架,利用微调的小型语言模型进行结构化三元组提取和关联检索,在响应生成和内存检索方面取得了最先进的性能,同时降低了计算开销。
本文从理论上识别并缓解了多轮对话强化学习中的上下文分布偏移,提出了校准交互式RL,该框架将交互式RL与模拟器对齐相结合,以减少模拟到真实的差距并实现最先进的性能。
SAVOIR框架将合作博弈论与Shapley值应用于语言智能体训练,显著提升其社交智能,在SOTOPIA基准上刷新SOTA,并达到GPT-4o水平。