构建了一个返回页面标签(而不仅仅是Markdown)的Fetch API
摘要
作者介绍了一个用于RAG和网页摄入的Fetch API,该API返回页面标签(死链接、内容类别、页面结构),以帮助在索引前过滤低价值页面。他们寻求关于哪些额外字段会有用的反馈。
我正在开发一个用于RAG、智能体和网页摄入工作流的Fetch API。类似于Firecrawl/Jina Reader那种将URL转为Markdown或干净文本的API,但多了一层信号:页面标签,用于内容类别和页面结构。痛点在于:抓取只是第一步。你仍然需要判断一个页面是否有用、相关,是否值得送入索引、嵌入或LLM管道。我们返回的标签示例:死链接 / 缺失主要内容 → 提前跳过低价值页面;首页/索引页 vs 内容页 → 避免将导航/列表页与真实内容混在一起;内容类别 → 保持垂直管道不会索引到范围外的页面,例如一个金融工作流拉入了随机的娱乐/论坛页面。我们的类别标签涵盖金融、健康、新闻、电商、教育、招聘、旅游等广泛领域。还有几个开放问题:如果你已经基于抓取API构建了过滤逻辑——跳过列表页、按主题过滤、丢弃死链接——好奇你的管道中是怎么做的。把这一步前置真的能节省工作,还是只是增加了一层你更愿意自己控制的逻辑?除了类别和页面结构之外,Fetch API响应中还有哪些字段或标签实际上有用?作者、发布日期、情感、产品定价、新鲜度信号……好奇当前的抓取工具对你的管道来说缺少什么。如果你愿意尝试,欢迎分享访问权限。新注册用户可获得5美元信用额度,大约可抓取5000页。
相似文章
哪种网络搜索API能为本地RAG解析提供最干净的Markdown输出?
针对为本地RAG管线提供干净Markdown输出的需求,本文比较了多种网络搜索API与工具(包括Brave Search、Parallel AI、You.com、Exa、Tavily、Firecrawl、Jina Reader以及SearXNG),评估它们在信噪比和开发者开销方面的表现。
我制作了一个小工具,用于在将检索结果输入RAG之前进行检查
一位开发者创建了一个小型本地工具,用于在将检索结果输入RAG流水线之前,检查来自Brave、Serper、Tavily和Exa等搜索提供商的检索结果,并关注源多样性、重复性、时效性以及SEO/GEO污染风险等信号。
@h100envy:这篇论文彻底改变了我对 RAG 中信任检索的看法:获取文档 -> 评估质量 -> 得…
本文提出了一种5步蓝图,通过使用轻量级检索评估器来提高 RAG 中的信任度。该评估器对文档质量进行评分,并触发(正确、错误、模糊)三种动作来处理检索失败,具有即插即用的集成特性。
我们如何为RAG索引图像
Kapa.ai 描述了他们为RAG索引图像的方法:在索引时使用廉价的视觉模型生成文本描述,避免查询时的视觉成本,从而以最小的每次查询开销获得更优的答案。
[P] 我构建了一个系统,让你可以对任何GitHub仓库提问,并获得基于实际源代码的答案 [P]
GitRAG 是一个工具,允许用户粘贴任何公开的 GitHub URL,并询问关于代码库的问题,返回基于源代码的答案,带有精确的文件路径和行号,使用了AST感知的切分、混合搜索(稠密检索 + BM25)、重新排序以及用于生成的语言模型。