标签
BELIEF是一个面向生物医学问答的结构化证据建模与不确定性感知融合框架,它将检索到的文档转化为证据对象,并结合符号化Dempster-Shafer推理与基于LLM的推理。在PubMedQA、MedQA和MedMCQA上的实验表明,BELIEF在大多数设置下取得了最先进的结果。
Lean Refactor 提出了一种检索增强的智能体框架,用于对 Lean 证明进行多目标、可控且鲁棒的版本重构,实现了显著的压缩和编译时间减少。
一个受情景记忆理论启发的新型内存检索系统,使用Gemini Flash在LongMemEval基准测试中取得了最先进的96.4% top-50准确率,通过将检索质量与模型能力分离,超越了基于Pro的大型基线。
本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现,揭示了准确率下降和预测翻转,并提出了一个冲突感知的弃权评分,提高了选择性准确率。
EviMem结合了用于证据差距检测的IRIS和用于分层记忆的LaceMem,以改进长期对话记忆检索,在时间和多跳问题上实现了更高准确率和更低延迟。
CoAuthorAI 是一种人类参与系统,融合检索增强生成与层级大纲,实现准确连贯的科学书籍写作,在评测中达到 98% 召回率和 82% 用户满意度。
本文介绍了一种检索增强的大型语言模型框架用于金融情感分析,相比传统模型及ChatGPT、LLaMA等大型语言模型,在准确率和F1分数上实现了15%至48%的提升。