retrieval-augmented

#retrieval-augmented

当病例罕见时：面向非指南临床问答的检索基准

arXiv cs.CL ↗ · 2026-05-22 缓存

介绍 OGCaReBench，这是一个自由形式的检索基准，用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明，即使是最好的模型也仅能达到 56% 的准确率，但检索增强将性能提升至 82%。

0 人收藏 0 人点赞

#retrieval-augmented

面向文化图像描述的长上下文检索增强翻译：Gators在AmericasNLP 2026共享任务中的提交

arXiv cs.CL ↗ · 2026-05-21 缓存

佛罗里达大学Gators团队提交至AmericasNLP 2026共享任务，该任务涉及面向土著语言的文化图像描述。我们采用双阶段流水线：使用Qwen2.5-VL生成西班牙语中间描述，然后通过检索增强的多示例提示，利用Gemini 2.5 Flash生成目标语言描述。与基线相比，取得了显著提升。

0 人收藏 0 人点赞

#retrieval-augmented

更多上下文、更大模型还是道德知识？政治文本中施瓦茨价值观检测的系统研究

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

一项关于检测政治文本中施瓦茨价值观的系统研究，比较了上下文长度、模型大小和检索增强生成方法。结果表明，全文上下文能提升监督模型性能但对零样本大语言模型无效，而检索到的道德知识通过早期融合始终有所帮助。

0 人收藏 0 人点赞

#retrieval-augmented

BELIEF：面向生物医学问答的结构化证据建模与不确定性感知融合

arXiv cs.CL ↗ · 2026-05-19 缓存

BELIEF是一个面向生物医学问答的结构化证据建模与不确定性感知融合框架，它将检索到的文档转化为证据对象，并结合符号化Dempster-Shafer推理与基于LLM的推理。在PubMedQA、MedQA和MedMCQA上的实验表明，BELIEF在大多数设置下取得了最先进的结果。

0 人收藏 0 人点赞

#retrieval-augmented

Lean Refactor：基于智能体策略搜索的多目标可控证明优化

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

Lean Refactor 提出了一种检索增强的智能体框架，用于对 Lean 证明进行多目标、可控且鲁棒的版本重构，实现了显著的压缩和编译时间减少。

0 人收藏 0 人点赞

#retrieval-augmented

在内存基准测试LongMemEval上以Gemini Flash（非Pro）取得第一 [R]

Reddit r/MachineLearning ↗ · 2026-05-17

一个受情景记忆理论启发的新型内存检索系统，使用Gemini Flash在LongMemEval基准测试中取得了最先进的96.4% top-50准确率，通过将检索质量与模型能力分离，超越了基于Pro的大型基线。

0 人收藏 0 人点赞

#retrieval-augmented

当证据冲突时：检索增强生物医学问答中的不确定性与顺序效应

arXiv cs.CL ↗ · 2026-05-15 缓存

本文在冲突证据条件下评估了六个开放权重的大语言模型在生物医学问答中的表现，揭示了准确率下降和预测翻转，并提出了一个冲突感知的弃权评分，提高了选择性准确率。

0 人收藏 0 人点赞

#retrieval-augmented

EviMem: 证据差距驱动的迭代检索用于长期对话记忆

Hugging Face Daily Papers ↗ · 2026-04-30 缓存

EviMem结合了用于证据差距检测的IRIS和用于分层记忆的LaceMem，以改进长期对话记忆检索，在时间和多跳问题上实现了更高准确率和更低延迟。

0 人收藏 0 人点赞

#retrieval-augmented

CoAuthorAI：面向科学书籍写作的人类参与系统

arXiv cs.CL ↗ · 2026-04-23 缓存

CoAuthorAI 是一种人类参与系统，融合检索增强生成与层级大纲，实现准确连贯的科学书籍写作，在评测中达到 98% 召回率和 82% 用户满意度。

0 人收藏 0 人点赞

#retrieval-augmented

通过检索增强大型语言模型提升金融情感分析

Papers with Code Trending ↗ · 2023-10-06 缓存

本文介绍了一种检索增强的大型语言模型框架用于金融情感分析，相比传统模型及ChatGPT、LLaMA等大型语言模型，在准确率和F1分数上实现了15%至48%的提升。

0 人收藏 0 人点赞

retrieval-augmented

提交意见反馈