标签
一个受情景记忆理论启发的新型内存检索系统,使用Gemini Flash在LongMemEval基准测试中取得了最先进的96.4% top-50准确率,通过将检索质量与模型能力分离,超越了基于Pro的大型基线。
本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现,揭示了准确率下降和预测翻转,并提出了一个冲突感知的弃权评分,提高了选择性准确率。
EviMem结合了用于证据差距检测的IRIS和用于分层记忆的LaceMem,以改进长期对话记忆检索,在时间和多跳问题上实现了更高准确率和更低延迟。
CoAuthorAI 是一种人类参与系统,融合检索增强生成与层级大纲,实现准确连贯的科学书籍写作,在评测中达到 98% 召回率和 82% 用户满意度。
本文介绍了一种检索增强的大型语言模型框架用于金融情感分析,相比传统模型及ChatGPT、LLaMA等大型语言模型,在准确率和F1分数上实现了15%至48%的提升。