从LLM代理视角测量网页信息密度 [R]

Reddit r/MachineLearning 2026/05/08 18:38 论文

rag agentic-systems information-density web-extraction token-efficiency llm-as-judge benchmark

摘要

本文介绍了从LLM代理视角对网页信息密度进行的实证测量，使用了涵盖五个类别的100个URL的精选基准。研究发现，结构化提取平均减少了71.5%的令牌数量，同时保持了答案质量，并揭示了Claude Code中一个未记录的压缩层。

发布一些实证测量结果，可能对从事RAG/代理系统的人有帮助。**实验设置：** 100个URL，涵盖5个类别（新闻、电商、文档、社交、SaaS营销），每类20个。每个URL并行运行两个提取器：(a) 朴素的HTML转文本——代表目前大多数代理所使用的方式；(b) 结构化提取——语义HTML标签 + 每个DOM子树的文本密度 + 链接密度。令牌计数使用tiktoken cl100k\\_base。**结果：** 83/100个页面可访问（其余17个对非浏览器User-Agent返回403）。83个页面的平均令牌减少：71.5%。按类别分布：新闻65.5%（n=18，σ与均值接近），电商62.5%（n=12，8个站点被爬虫屏蔽），文档46.3%（n=18），SaaS 45.9%（n=20），社交30.7%（n=15，因Reddit提供近乎空页面而拉低）。**基于LLM的评判验证**（qwen2.5:7b，本地，免费）：* 内容保留评分：平均77.7/100 * 类别相关问题上的答案质量差异：26次哨兵模型更好 / 31次平局 / 26次基线更好。平局的AQD分布是更诚实的发现——启发式提取并不能可靠地*提高*答案质量，但也没有下降，同时消耗的令牌减少71.5%。以约\\~28.5%的令牌成本获得同等质量。**一个值得注意的附带发现：** 当我在Claude Code（Anthropic的CLI）中作为会话级A/B测试运行相同的测量时，无论是否使用我的工具，令牌成本几乎相同。`/cost`的每个模型细分显示，Claude Code在将WebFetch传递给主模型之前，会通过Haiku作为内部压缩步骤进行路由。这一点未记录在案。含义：如果你使用Claude Code作为测试平台来基准测试RAG/提取工具，你的数字反映的是*Anthropic*的压缩层加上你的工具，而不只是你的工具。值得了解。代码仓库（代码、方法论、每个URL的CSV）：[https://github.com/iOptimizeThings/sentinel](https://github.com/iOptimizeThings/sentinel) 提取算法本身并不新颖——它借鉴了Mozilla Readability / Trafilatura的思路。这里的贡献在于：(1) 针对精选基准集的可复现测量方法，(2) 针对代理消费而非人类阅读优化的结构化输出格式，(3) 显示语义保留的基于LLM的评判验证。欢迎对方法论提出反馈，尤其是AQD设置，这是最薄弱的环节——每个页面只有一个类别级别的问题，过于粗糙。

查看原文

相似文章

重新审视LLM推理中的均匀信息密度假设

arXiv cs.CL

本文重新审视了LLM推理背景下的均匀信息密度（UID）假设，引入了一个基于熵的框架来量化信息流的均匀性。在七个推理基准上的实验发现，高质量的推理在步骤过渡上表现出局部均匀性，但在轨迹结构上呈现全局非均匀性，这表明LLM推理与人类交流模式存在根本性差异。

信息密度对用户生成内容命名实体识别影响的机制与优化研究

arXiv cs.CL

arXiv 预印本指出，信息密度低是 NER 在嘈杂用户生成内容性能崩溃的根本原因，并提出窗口感知优化模块（WOM），在 WNUT2017 上最高提升 F1 4.5%。

GenericAgent：一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体（V1.0）

Papers with Code Trending

本文介绍了 GenericAgent，这是一种旨在最大化上下文信息密度的自我演进式大语言模型智能体系统。它通过分层记忆、可复用的标准操作流程（SOP）以及高效压缩技术，解决了长周期任务的局限性，在与领先智能体的对比中，以更少的 Token 消耗实现了更优的性能表现。

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

arXiv cs.CL

提出了 LiSCP，一种轻量级的风格一致性分析方法，旨在鲁棒性地检测大语言模型（LLM）生成的文本内容，重点关注在对抗性操纵下特征的稳定性。在域内和跨域检测中取得了优异的性能，并具有显著的鲁棒性。

WebCompass：面向代码语言模型的多模态网页编程评估

Hugging Face Daily Papers

# 论文页面 - WebCompass：面向代码语言模型的多模态网页编程评估来源：[https://huggingface.co/papers/2604.18224](https://huggingface.co/papers/2604.18224) 作者：, , , , , , , , , , , , , , , , , ## 摘要 WebCompass 通过多样化的输入模态和任务类型评估网页开发能力，采用模拟真实世界编码工作流的自动化评估方法。[大语言模型](https://huggingface.co/papers?q=Large%20language%20model

相似文章

重新审视LLM推理中的均匀信息密度假设

信息密度对用户生成内容命名实体识别影响的机制与优化研究

GenericAgent：一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体（V1.0）

轻量级风格一致性分析：用于多媒体内容审核的大语言模型生成文本鲁棒性检测

WebCompass：面向代码语言模型的多模态网页编程评估

提交意见反馈