@h100envy: 这篇论文彻底改变了我对RAG中检索循环的看法:分段 -> 判断是否需要检索 -> …

X AI KOLs Timeline 论文

摘要

这篇论文提出了一种新颖的RAG检索循环,利用反思标记和按需检索,让模型自行决定何时获取文档或依赖内部知识,并通过批判和树解码提升准确性。

这篇论文彻底改变了我对RAG中检索循环的看法: 分段 -> 判断是否需要检索 -> 获取或跳过 -> 生成 -> 批判自己的输出 -> 下一段 以下是5步蓝图: **反思标记**:模型在自己的词汇表中学习`retrieve`/`critique`等特殊标记,与普通单词并列。 **按需检索**:在每个分段处,模型解码一个标记,自行决定是从文档中获取信息还是从参数中回答。 **批判**:一旦拉取段落,一个标记会评估它们的相关性以及它们是否真正支持自己的输出。 **树解码**:对批判标记进行束搜索,从K个候选中选出效用最大化的延续。 **批判者 + 生成器**:批判模型离线向语料库插入标记,生成器仅使用普通下一个词预测进行训练,无需昂贵的在线RLHF。 **关键洞察**:检索并非总是有益;模型应自行决定何时拉取文档,何时保持静默。 跳过检索会导致PopQA准确率相对下降40%,而事实验证(PubHealth)上仅损失2%。 阅读本文,然后查看下面的文章。
查看原文
查看缓存全文

缓存时间: 2026/06/29 22:32

这篇论文彻底改变了我对 RAG(检索增强生成)中检索循环的思考方式:

分段 → 判断是否需要检索 → 获取或跳过 → 生成 → 对自身输出进行评判 → 下一段

以下是五步蓝图:

反思令牌:模型将检索/评判特殊令牌作为自身词汇的一部分进行学习,与普通词汇并列。

按需检索:在每一段,模型解码一个令牌,自行决定是获取文档还是从参数中作答。

评判:一旦获取了文本段落,一个令牌会评估它们的相关性,以及它们是否真正支持模型自身的输出。

树解码:对评判令牌进行束搜索,从 K 个候选中选择能够最大化效用的延续路径。

评判器 + 生成器:评判器模型离线在语料库中插入令牌,生成器则使用普通的下一令牌预测进行训练,无需昂贵的在线 RLHF。

关键洞察:检索并非总是有益的;模型应自行决定何时拉取文档,何时保持沉默。

跳过检索会使 PopQA 准确率相对下降 40%,但在事实验证(PubHealth)上仅损失 2%。

阅读此文,然后查看下面的文章。

相似文章