@h100envy: 这篇论文彻底改变了我对RAG中检索循环的看法：分段 -> 判断是否需要检索 -> …

X AI KOLs Timeline 2026/06/29 18:22 论文

rag retrieval retrieval-augmented-generation reflection-tokens on-demand-retrieval critique tree-decoding critic-generator

摘要

这篇论文提出了一种新颖的RAG检索循环，利用反思标记和按需检索，让模型自行决定何时获取文档或依赖内部知识，并通过批判和树解码提升准确性。

这篇论文彻底改变了我对RAG中检索循环的看法：分段 -> 判断是否需要检索 -> 获取或跳过 -> 生成 -> 批判自己的输出 -> 下一段以下是5步蓝图： **反思标记**：模型在自己的词汇表中学习`retrieve`/`critique`等特殊标记，与普通单词并列。 **按需检索**：在每个分段处，模型解码一个标记，自行决定是从文档中获取信息还是从参数中回答。 **批判**：一旦拉取段落，一个标记会评估它们的相关性以及它们是否真正支持自己的输出。 **树解码**：对批判标记进行束搜索，从K个候选中选出效用最大化的延续。 **批判者 + 生成器**：批判模型离线向语料库插入标记，生成器仅使用普通下一个词预测进行训练，无需昂贵的在线RLHF。 **关键洞察**：检索并非总是有益；模型应自行决定何时拉取文档，何时保持静默。跳过检索会导致PopQA准确率相对下降40%，而事实验证（PubHealth）上仅损失2%。阅读本文，然后查看下面的文章。

查看原文

查看缓存全文

缓存时间: 2026/06/29 22:32

这篇论文彻底改变了我对 RAG（检索增强生成）中检索循环的思考方式：

分段 → 判断是否需要检索 → 获取或跳过 → 生成 → 对自身输出进行评判 → 下一段

以下是五步蓝图：

反思令牌：模型将检索/评判特殊令牌作为自身词汇的一部分进行学习，与普通词汇并列。

按需检索：在每一段，模型解码一个令牌，自行决定是获取文档还是从参数中作答。

评判：一旦获取了文本段落，一个令牌会评估它们的相关性，以及它们是否真正支持模型自身的输出。

树解码：对评判令牌进行束搜索，从 K 个候选中选择能够最大化效用的延续路径。

评判器 + 生成器：评判器模型离线在语料库中插入令牌，生成器则使用普通的下一令牌预测进行训练，无需昂贵的在线 RLHF。

关键洞察：检索并非总是有益的；模型应自行决定何时拉取文档，何时保持沉默。

跳过检索会使 PopQA 准确率相对下降 40%，但在事实验证（PubHealth）上仅损失 2%。

阅读此文，然后查看下面的文章。

@h100envy: 这篇论文彻底改变了我对RAG中检索循环的看法：分段 -> 判断是否需要检索 -> …

相似文章

@h100envy：这篇论文彻底改变了我对 RAG 中信任检索的看法：获取文档 -> 评估质量 -> 得…

@omarsar0: 这篇论文很好地结合了 Skills 与 RAG 的优势。大多数 RAG 系统会在每次查询时都进行检索，无论模型是否需要……

@_rohit_tiwari_: 我浪费了几个月试图理解RAG。所以我制作了这个清晰的逐步指南。https://drive.google.com/file/d/1…

@Julian_a42f9a：后期交互检索模型的表示已超越检索本身，可直接用于RAG

LatentRAG：用于高效智能体 RAG 的潜在推理与检索

提交意见反馈