LLM如何决定引用哪些页面——以及如何优化
摘要
本文阐述了 ChatGPT 和 Perplexity 等模型如何选择引用来源,并指出结构化标记(JSON-LD)能够通过提升信息提取效率,将引用率从 16% 大幅跃升至 54%。
当 ChatGPT 或 Perplexity 回答问题时,系统会执行 RAG 流程:先从抓取索引中召回排名靠前的候选页面,再对其进行打分。该打分标准出自公开的普林斯顿 GEO 论文(arxiv.org/abs/2311.09735)。关键信号包括:回答直接性、引用的统计数据、结构化数据(JSON-LD)、爬虫可访问性及内容时效性。调研中最令我惊讶的是:仅凭 Schema 标记,就能将精确信息提取率从 16% 提升至 54%。这绝不是微小的增量——它直接划清了“被引用”与“完全隐形”的界限。不知各位是否也在此方向进行过测试?很想知道大家目前的实战效果如何。
相似文章
我花了40%的开发时间阻止LLM引证出错,总结出了7种失效模式
一位为德国律所构建AI法律助手的开发者,详细列出了7种具体的LLM引证失效模式,以及为满足严格法律引证标准而采用的提示工程修复方案。
个人网站 JSON-LD 详解
本指南介绍了如何为个人网站添加 JSON-LD 结构化数据,以提升 SEO 和获得更丰富的链接预览,涵盖基础知识和常见 Schema 类型的可复制粘贴示例。
我们一直在分析人们如何在法律与合规任务中使用LLM(GDPR、AI法案等)。
对LLM在法律与合规任务中使用的分析显示,模型常常生成自信但无法验证的引用,引发了对AI输出可靠法律依据的质疑。
为了内容而内容
作者探讨了LLM如何影响编码和日常语言中的用词,发现LLM偏好的词汇在编程会话和Google Trends中出现的频率均有所增加,这引发了人们对人类开始采用LLM写作风格的担忧。
我对LLM代码风格与Token成本的发现
本文讨论了LLM代码风格选择如何影响Token消耗和成本,并提供了优化建议,如使用Web API标准和更简单的缩进以减少输出Token。