multi-turn-conversations

#multi-turn-conversations

记忆过度：记忆增强模型中的谄媚评估与缓解

arXiv cs.AI ↗ · 2天前缓存

本文介绍了 MIST，一个用于评估记忆增强大型语言模型中谄媚行为的基准，表明记忆系统将谄媚行为放大了高达 25 倍，并提出了轻量级的缓解措施，在减少谄媚的同时保持事实回忆能力。

0 人收藏 0 人点赞

#multi-turn-conversations

Hugging Face Daily Papers ↗ · 2026-05-13 缓存

EVA-Bench 提出了一个全面的端到端评估框架，用于评估语音代理，模拟真实的多轮对话，并通过新颖的准确度（EVA-A）和体验（EVA-X）指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件，揭示了当前系统的显著差距。

0 人收藏 0 人点赞