LLM如何决定引用哪些页面——以及如何优化

Reddit r/artificial 新闻

摘要

本文阐述了 ChatGPT 和 Perplexity 等模型如何选择引用来源,并指出结构化标记(JSON-LD)能够通过提升信息提取效率,将引用率从 16% 大幅跃升至 54%。

当 ChatGPT 或 Perplexity 回答问题时,系统会执行 RAG 流程:先从抓取索引中召回排名靠前的候选页面,再对其进行打分。该打分标准出自公开的普林斯顿 GEO 论文(arxiv.org/abs/2311.09735)。关键信号包括:回答直接性、引用的统计数据、结构化数据(JSON-LD)、爬虫可访问性及内容时效性。调研中最令我惊讶的是:仅凭 Schema 标记,就能将精确信息提取率从 16% 提升至 54%。这绝不是微小的增量——它直接划清了“被引用”与“完全隐形”的界限。不知各位是否也在此方向进行过测试?很想知道大家目前的实战效果如何。
查看原文

相似文章

谁的事实能赢?知识冲突下大语言模型的信息源偏好

arXiv cs.CL

本论文通过研究检索增强生成中不同信息源的偏好,探究大语言模型如何处理知识冲突。研究发现大语言模型倾向于选择经机构验证的信息源,但这些偏好可通过重复而被逆转,论文提出了一种方法来减少重复偏差同时保持一致的信息源偏好。

我们尝试了向量、抽象语法树(AST)以及粗暴地堆砌上下文以进行代码检索。带有大语言模型(LLM)生成语义的图结构效果最佳。以下是我们的经验总结。

Reddit r/LocalLLaMA

作者们详细描述了他们在构建代码索引系统的经验,最终得出结论:使用大语言模型(LLM)生成语义的图检索方式在性能上优于向量嵌入和纯抽象语法树(AST)解析。他们将该系统开源,命名为 Bytebell,它利用 Neo4j 存储语义上下文,以实现高效且精确的代码检索。