multi-party-conversation

#multi-party-conversation

评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力

arXiv cs.CL ↗ · 18小时前缓存

本文评估了大语言模型（LLMs）和多模态大语言模型在多方会议对话中的收件人检测、话轮转换预测和下一说话人预测能力。结果表明，基于文本的LLMs在下一说话人预测上优于监督模型和人类，而多模态LLMs在其他任务上比纯文本模型有所提升，但表现仍低于人类。

0 人收藏 0 人点赞

#multi-party-conversation

arXiv cs.CL ↗ · 2026-05-15 缓存

GroupMemBench是一个新的基准，用于评估多轮对话中LLM代理的记忆能力，揭示了当前记忆系统的缺陷，最佳系统仅达到46%的平均准确率。

0 人收藏 0 人点赞