标签
本文评估了大语言模型(LLMs)和多模态大语言模型在多方会议对话中的收件人检测、话轮转换预测和下一说话人预测能力。结果表明,基于文本的LLMs在下一说话人预测上优于监督模型和人类,而多模态LLMs在其他任务上比纯文本模型有所提升,但表现仍低于人类。
GroupMemBench是一个新的基准,用于评估多轮对话中LLM代理的记忆能力,揭示了当前记忆系统的缺陷,最佳系统仅达到46%的平均准确率。