标签
本文提出PUMA,一个用于多轮对话中LLM个性化的框架,该框架建模潜在用户状态,并利用自由能原理选择对话行为,在医疗咨询基准测试中提升了长程对话效果。
Microsoft Research 和 Salesforce 发布的新论文揭示,由于“迷失于对话”(Lost in Conversation)现象,LLM 在多轮对话中的性能显著下降,这对当前单轮基准测试的可靠性提出了挑战。