构建了一个返回页面标签（而不仅仅是Markdown）的Fetch API

Reddit r/AI_Agents 2026/05/19 03:33 产品

fetch-api rag web-ingestion page-labels content-classification developer-tools

摘要

作者介绍了一个用于RAG和网页摄入的Fetch API，该API返回页面标签（死链接、内容类别、页面结构），以帮助在索引前过滤低价值页面。他们寻求关于哪些额外字段会有用的反馈。

我正在开发一个用于RAG、智能体和网页摄入工作流的Fetch API。类似于Firecrawl/Jina Reader那种将URL转为Markdown或干净文本的API，但多了一层信号：页面标签，用于内容类别和页面结构。痛点在于：抓取只是第一步。你仍然需要判断一个页面是否有用、相关，是否值得送入索引、嵌入或LLM管道。我们返回的标签示例：死链接 / 缺失主要内容 → 提前跳过低价值页面；首页/索引页 vs 内容页 → 避免将导航/列表页与真实内容混在一起；内容类别 → 保持垂直管道不会索引到范围外的页面，例如一个金融工作流拉入了随机的娱乐/论坛页面。我们的类别标签涵盖金融、健康、新闻、电商、教育、招聘、旅游等广泛领域。还有几个开放问题：如果你已经基于抓取API构建了过滤逻辑——跳过列表页、按主题过滤、丢弃死链接——好奇你的管道中是怎么做的。把这一步前置真的能节省工作，还是只是增加了一层你更愿意自己控制的逻辑？除了类别和页面结构之外，Fetch API响应中还有哪些字段或标签实际上有用？作者、发布日期、情感、产品定价、新鲜度信号……好奇当前的抓取工具对你的管道来说缺少什么。如果你愿意尝试，欢迎分享访问权限。新注册用户可获得5美元信用额度，大约可抓取5000页。

查看原文

构建了一个返回页面标签（而不仅仅是Markdown）的Fetch API

相似文章

哪种网络搜索API能为本地RAG解析提供最干净的Markdown输出？

我制作了一个小工具，用于在将检索结果输入RAG之前进行检查

@h100envy：这篇论文彻底改变了我对 RAG 中信任检索的看法：获取文档 -> 评估质量 -> 得…

我们如何为RAG索引图像

[P] 我构建了一个系统，让你可以对任何GitHub仓库提问，并获得基于实际源代码的答案 [P]

提交意见反馈