ACL-Verbatim: 面向研究的无幻觉问答系统

Hugging Face Daily Papers 论文

摘要

ACL-Verbatim 引入了一系列轻量级抽取模型,用于有来源的检索增强生成(RAG),能够从源文档中返回精确文本片段,性能优于基于大型语言模型的提取器。

学术研究人员需要高效可靠的方法从可信来源收集高质量信息,但当前用于人工智能辅助研究的工具仍然存在大型语言模型(LLM)产生事实错误或无意义输出的倾向,这通常被称为“幻觉”。我们将抽取式问答系统 VerbatimRAG 应用于 ACL Anthology 中的研究论文,直接将用户查询映射到检索文档中的逐字文本片段。我们为将用户查询映射到研究论文中相关文本片段的任务贡献了一个新颖的真实标准数据集,并利用它来训练和评估多种抽取模型。人工标注由自然语言处理(NLP)研究人员执行,基于使用自定义管道(基于 ScIRGen 方法)生成的合成用户查询,并与 VerbatimRAG 检索到的论文片段配对。在该基准测试中,一个基于我们管道的银标准监督训练的 150M 参数 ModernBERT 词分类器实现了最佳的词级别 F1 分数(53.6),领先于最强评估的 LLM 提取器(48.7)。
查看原文
查看缓存全文

缓存时间: 2026/06/02 15:35

论文页面 - ACL-Verbatim:面向研究的无幻觉问答系统

来源:https://huggingface.co/papers/2605.21102 今天我们发布了一个全新的轻量级SOTA提取模型家族,专为基于事实依据的RAG(检索增强生成)设计。

两个150M参数的ModernBERT跨度提取器,采用token分类器架构。它们在ACL、RAGBench、Squeez和QASPER基准上,全面超越了公开的提取式基线(如Zilliz Semantic Highlight、Provence),并在我们提出的ACL-Verbatim基准上,性能超越了体积大100倍的基于LLM的提取器。

给定一个查询和检索到的文本块,该提取器会直接返回支持答案的精确文本跨度。

无需通过LLM生成答案,而是直接从源文本中获取逐字证据:段落、表格标题、代码块或其他相关文本。

相似文章

@neural_avb: https://x.com/neural_avb/status/2063907440509571354

X AI KOLs Timeline

探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。

OCC-RAG:面向忠实问答的最优认知核心

arXiv cs.CL

OCC-RAG 引入了一系列紧凑型小语言模型,这些模型针对忠实问答进行了优化,采用新颖的流程来合成多上下文多跳问答数据。该模型在推理和忠实度基准测试中表现出与大型模型相当的竞争性能。

KG-Guard: 基于图的幻觉检测方法用于知识库问答

arXiv cs.LG

KG-Guard是一个轻量级的基于图的框架,用于检测基于LLM的知识库问答中的幻觉。它将LLM视为黑盒,使用图编码器与MLP分类器来识别幻觉答案节点,在参数少得多的前提下优于基线方法。

ContextRAG:面向检索增强生成的无抽取层次图构建

arXiv cs.CL

ContextRAG引入了一种无抽取方法,用于构建面向检索增强生成的层次图索引。该方法利用残差量化K均值(Residual-Quantization K-Means)和形式概念分析(Formal Concept Analysis),将大语言模型(LLM)调用和Token数量减少数个数量级,同时在多跳问题上保持具有竞争力的F1分数。