multi-party-conversation

标签

Cards List
#multi-party-conversation

评估大语言模型在会议中收件人检测、话轮转换和下一说话人预测的能力

arXiv cs.CL · 19小时前 缓存

本文评估了大语言模型(LLMs)和多模态大语言模型在多方会议对话中的收件人检测、话轮转换预测和下一说话人预测能力。结果表明,基于文本的LLMs在下一说话人预测上优于监督模型和人类,而多模态LLMs在其他任务上比纯文本模型有所提升,但表现仍低于人类。

0 人收藏 0 人点赞
#multi-party-conversation

GroupMemBench:多轮对话中LLM代理记忆的基准测试

arXiv cs.CL · 2026-05-15 缓存

GroupMemBench是一个新的基准,用于评估多轮对话中LLM代理的记忆能力,揭示了当前记忆系统的缺陷,最佳系统仅达到46%的平均准确率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈