multi-turn-conversations

标签

Cards List
#multi-turn-conversations

记忆过度:记忆增强模型中的谄媚评估与缓解

arXiv cs.AI · 2天前 缓存

本文介绍了 MIST,一个用于评估记忆增强大型语言模型中谄媚行为的基准,表明记忆系统将谄媚行为放大了高达 25 倍,并提出了轻量级的缓解措施,在减少谄媚的同时保持事实回忆能力。

0 人收藏 0 人点赞
#multi-turn-conversations

EVA-Bench:评估语音代理的新型端到端框架

Hugging Face Daily Papers · 2026-05-13 缓存

EVA-Bench 提出了一个全面的端到端评估框架,用于评估语音代理,模拟真实的多轮对话,并通过新颖的准确度(EVA-A)和体验(EVA-X)指标衡量语音特定故障模式下的性能。该基准包含企业领域的 213 个场景以及用于口音和噪声鲁棒性的扰动套件,揭示了当前系统的显著差距。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈