ACL-Verbatim: 面向研究的无幻觉问答系统
摘要
ACL-Verbatim 引入了一系列轻量级抽取模型,用于有来源的检索增强生成(RAG),能够从源文档中返回精确文本片段,性能优于基于大型语言模型的提取器。
查看缓存全文
缓存时间: 2026/06/02 15:35
论文页面 - ACL-Verbatim:面向研究的无幻觉问答系统
来源:https://huggingface.co/papers/2605.21102 今天我们发布了一个全新的轻量级SOTA提取模型家族,专为基于事实依据的RAG(检索增强生成)设计。
两个150M参数的ModernBERT跨度提取器,采用token分类器架构。它们在ACL、RAGBench、Squeez和QASPER基准上,全面超越了公开的提取式基线(如Zilliz Semantic Highlight、Provence),并在我们提出的ACL-Verbatim基准上,性能超越了体积大100倍的基于LLM的提取器。
给定一个查询和检索到的文本块,该提取器会直接返回支持答案的精确文本跨度。
无需通过LLM生成答案,而是直接从源文本中获取逐字证据:段落、表格标题、代码块或其他相关文本。
相似文章
@neural_avb: https://x.com/neural_avb/status/2063907440509571354
探索递归语言模型(RLM)中一个常见的失败模式,其中自由文本子代理响应会导致问题,并提出一种使用结构化输出提高可靠性的解决方案,通过NarrativeQA中的长上下文问答示例进行说明。
OCC-RAG:面向忠实问答的最优认知核心
OCC-RAG 引入了一系列紧凑型小语言模型,这些模型针对忠实问答进行了优化,采用新颖的流程来合成多上下文多跳问答数据。该模型在推理和忠实度基准测试中表现出与大型模型相当的竞争性能。
KG-Guard: 基于图的幻觉检测方法用于知识库问答
KG-Guard是一个轻量级的基于图的框架,用于检测基于LLM的知识库问答中的幻觉。它将LLM视为黑盒,使用图编码器与MLP分类器来识别幻觉答案节点,在参数少得多的前提下优于基线方法。
ContextRAG:面向检索增强生成的无抽取层次图构建
ContextRAG引入了一种无抽取方法,用于构建面向检索增强生成的层次图索引。该方法利用残差量化K均值(Residual-Quantization K-Means)和形式概念分析(Formal Concept Analysis),将大语言模型(LLM)调用和Token数量减少数个数量级,同时在多跳问题上保持具有竞争力的F1分数。
MARDoc:面向多模态长文档问答的记忆感知精炼代理框架
MARDoc是一种用于多模态长文档问答的记忆感知精炼代理框架,在MMLongBench-Doc和DocBench基准上使用Qwen3-VL模型进行评估,相比基于MLLM、RAG和代理的基线表现出持续改进。