构建了一个返回页面标签(而不仅仅是Markdown)的Fetch API

Reddit r/AI_Agents 产品

摘要

作者介绍了一个用于RAG和网页摄入的Fetch API,该API返回页面标签(死链接、内容类别、页面结构),以帮助在索引前过滤低价值页面。他们寻求关于哪些额外字段会有用的反馈。

我正在开发一个用于RAG、智能体和网页摄入工作流的Fetch API。类似于Firecrawl/Jina Reader那种将URL转为Markdown或干净文本的API,但多了一层信号:页面标签,用于内容类别和页面结构。痛点在于:抓取只是第一步。你仍然需要判断一个页面是否有用、相关,是否值得送入索引、嵌入或LLM管道。我们返回的标签示例:死链接 / 缺失主要内容 → 提前跳过低价值页面;首页/索引页 vs 内容页 → 避免将导航/列表页与真实内容混在一起;内容类别 → 保持垂直管道不会索引到范围外的页面,例如一个金融工作流拉入了随机的娱乐/论坛页面。我们的类别标签涵盖金融、健康、新闻、电商、教育、招聘、旅游等广泛领域。还有几个开放问题:如果你已经基于抓取API构建了过滤逻辑——跳过列表页、按主题过滤、丢弃死链接——好奇你的管道中是怎么做的。把这一步前置真的能节省工作,还是只是增加了一层你更愿意自己控制的逻辑?除了类别和页面结构之外,Fetch API响应中还有哪些字段或标签实际上有用?作者、发布日期、情感、产品定价、新鲜度信号……好奇当前的抓取工具对你的管道来说缺少什么。如果你愿意尝试,欢迎分享访问权限。新注册用户可获得5美元信用额度,大约可抓取5000页。
查看原文

相似文章

我们如何为RAG索引图像

Hacker News Top

Kapa.ai 描述了他们为RAG索引图像的方法:在索引时使用廉价的视觉模型生成文本描述,避免查询时的视觉成本,从而以最小的每次查询开销获得更优的答案。