LLM如何决定引用哪些页面——以及如何优化

Reddit r/artificial 新闻

摘要

本文阐述了 ChatGPT 和 Perplexity 等模型如何选择引用来源,并指出结构化标记(JSON-LD)能够通过提升信息提取效率,将引用率从 16% 大幅跃升至 54%。

当 ChatGPT 或 Perplexity 回答问题时,系统会执行 RAG 流程:先从抓取索引中召回排名靠前的候选页面,再对其进行打分。该打分标准出自公开的普林斯顿 GEO 论文(arxiv.org/abs/2311.09735)。关键信号包括:回答直接性、引用的统计数据、结构化数据(JSON-LD)、爬虫可访问性及内容时效性。调研中最令我惊讶的是:仅凭 Schema 标记,就能将精确信息提取率从 16% 提升至 54%。这绝不是微小的增量——它直接划清了“被引用”与“完全隐形”的界限。不知各位是否也在此方向进行过测试?很想知道大家目前的实战效果如何。
查看原文

相似文章

个人网站 JSON-LD 详解

Hacker News Top

本指南介绍了如何为个人网站添加 JSON-LD 结构化数据,以提升 SEO 和获得更丰富的链接预览,涵盖基础知识和常见 Schema 类型的可复制粘贴示例。

为了内容而内容

Armin Ronacher

作者探讨了LLM如何影响编码和日常语言中的用词,发现LLM偏好的词汇在编程会话和Google Trends中出现的频率均有所增加,这引发了人们对人类开始采用LLM写作风格的担忧。

我对LLM代码风格与Token成本的发现

Hacker News Top

本文讨论了LLM代码风格选择如何影响Token消耗和成本,并提供了优化建议,如使用Web API标准和更简单的缩进以减少输出Token。