LLM如何决定引用哪些页面——以及如何优化

Reddit r/artificial 2026/04/19 16:22 新闻

llm-citations rag schema-markup seo content-optimization information-retrieval

摘要

本文阐述了 ChatGPT 和 Perplexity 等模型如何选择引用来源，并指出结构化标记（JSON-LD）能够通过提升信息提取效率，将引用率从 16% 大幅跃升至 54%。

当 ChatGPT 或 Perplexity 回答问题时，系统会执行 RAG 流程：先从抓取索引中召回排名靠前的候选页面，再对其进行打分。该打分标准出自公开的普林斯顿 GEO 论文（arxiv.org/abs/2311.09735）。关键信号包括：回答直接性、引用的统计数据、结构化数据（JSON-LD）、爬虫可访问性及内容时效性。调研中最令我惊讶的是：仅凭 Schema 标记，就能将精确信息提取率从 16% 提升至 54%。这绝不是微小的增量——它直接划清了“被引用”与“完全隐形”的界限。不知各位是否也在此方向进行过测试？很想知道大家目前的实战效果如何。

查看原文

LLM如何决定引用哪些页面——以及如何优化

相似文章

我花了40%的开发时间阻止LLM引证出错，总结出了7种失效模式

谁的事实能赢？知识冲突下大语言模型的信息源偏好

别再让大语言模型编辑你的 .bib 文件 [D]

@omarsar0：受 @karpathy 的 LLM 知识库想法启发的 LLM Artifacts，我一直在构建一种生成动态产物的有趣方式……

我们尝试了向量、抽象语法树（AST）以及粗暴地堆砌上下文以进行代码检索。带有大语言模型（LLM）生成语义的图结构效果最佳。以下是我们的经验总结。

提交意见反馈