标签
介绍 OGCaReBench,这是一个自由形式的检索基准,用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明,即使是最好的模型也仅能达到 56% 的准确率,但检索增强将性能提升至 82%。
佛罗里达大学Gators团队提交至AmericasNLP 2026共享任务,该任务涉及面向土著语言的文化图像描述。我们采用双阶段流水线:使用Qwen2.5-VL生成西班牙语中间描述,然后通过检索增强的多示例提示,利用Gemini 2.5 Flash生成目标语言描述。与基线相比,取得了显著提升。
一项关于检测政治文本中施瓦茨价值观的系统研究,比较了上下文长度、模型大小和检索增强生成方法。结果表明,全文上下文能提升监督模型性能但对零样本大语言模型无效,而检索到的道德知识通过早期融合始终有所帮助。
BELIEF是一个面向生物医学问答的结构化证据建模与不确定性感知融合框架,它将检索到的文档转化为证据对象,并结合符号化Dempster-Shafer推理与基于LLM的推理。在PubMedQA、MedQA和MedMCQA上的实验表明,BELIEF在大多数设置下取得了最先进的结果。
Lean Refactor 提出了一种检索增强的智能体框架,用于对 Lean 证明进行多目标、可控且鲁棒的版本重构,实现了显著的压缩和编译时间减少。
一个受情景记忆理论启发的新型内存检索系统,使用Gemini Flash在LongMemEval基准测试中取得了最先进的96.4% top-50准确率,通过将检索质量与模型能力分离,超越了基于Pro的大型基线。
本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现,揭示了准确率下降和预测翻转,并提出了一个冲突感知的弃权评分,提高了选择性准确率。
EviMem结合了用于证据差距检测的IRIS和用于分层记忆的LaceMem,以改进长期对话记忆检索,在时间和多跳问题上实现了更高准确率和更低延迟。
CoAuthorAI 是一种人类参与系统,融合检索增强生成与层级大纲,实现准确连贯的科学书籍写作,在评测中达到 98% 召回率和 82% 用户满意度。
本文介绍了一种检索增强的大型语言模型框架用于金融情感分析,相比传统模型及ChatGPT、LLaMA等大型语言模型,在准确率和F1分数上实现了15%至48%的提升。