标签
MediaCrawler是一个多平台自媒体数据采集工具,支持小红书、抖音、快手、B站、微博、贴吧、知乎的公开内容抓取,利用浏览器登录态绕过JS逆向,降低技术门槛。
Selector Forge 是一款浏览器扩展,利用AI生成并验证可靠的CSS/XPath选择器,用于网页自动化,帮助开发者构建稳健的选择器,适用于测试、数据抓取和页面自动化。
PixelRAG 是一种新型开源工具,它绕过传统 HTML 解析,直接通过对网页截图并使用视觉模型从像素中提取答案,并支持 Claude Code 插件,让 Claude 具备视觉能力。
这篇文章介绍了10个用于网络爬虫的GitHub开源仓库,包括Firecrawl、Crawl4AI等,能够从网站提取干净数据,支持AI就绪的格式。
Puppeteer 是一个流行的浏览器自动化 JavaScript 库,支持控制 Chrome 和 Firefox,可用于网页抓取、自动化测试等场景,最近还集成了 MCP 协议以支持 AI 代理直接操控浏览器。
MediaCrawler 是一个开源的多平台自媒体数据采集工具,支持小红书、抖音、微博、B站、快手等平台的公开信息抓取,无需JS逆向,基于Playwright浏览器自动化。
PixelRAG 是一款开源工具,通过使用截图和视觉模型从网页中提取数据,取代了传统的网页抓取。它包含一个 Claude Code 插件。
PixelRAG是一种开源检索系统,它通过截取网页截图并使用视觉语言模型直接从像素中读取答案,从而绕过HTML解析,声称相比基于文本的RAG有显著的准确率提升。
一个精心整理的帖子,列出了 10 个用于网页抓取的 GitHub 仓库,包括 Firecrawl、Crawl4AI、Browser Use 等,涵盖从简单抓取到隐身工具以及面向 LLM 的数据提取。
agent-data是一个Python API工具,为OpenClaw等AI代理提供结构化网页数据,声称比浏览器自动化便宜70%且更可靠。
描述了一个自托管解决方案,使用 SearXNG 进行搜索、Scrapling 和 Trafilatura 进行页面提取,为本地 AI 代理提供网络访问,从而避免使用付费 API。
Agent Reach 是一个开源免费的工具,让 AI Agent 能够访问多种网络平台(如 YouTube、B站、GitHub 等),解决付费 API、IP 封禁等问题,支持多后端路由和自检切换,适合自媒体人和 Agent 用户。
介绍了多种网络爬取工具,包括yt-dlp、FxTwitter、get笔记等,用于从不同平台抓取内容。
Firecrawl 是一个 GitHub 上的开源项目,已获 13.4 万 Stars,能够自动抓取、清洗网站并将其转换为 AI 可用的 Markdown 或 JSON 格式数据,支持 JavaScript 页面和 AI Agent 自主交互,是构建 RAG、知识库和自动化 Agent 的基础设施。
Firecrawl 推出 Keyless 模式,无需 API Key 即可免费试用,支持实时网页抓取、交互和 PDF 解析,每月赠送 1000 Credits,适用于 Claude Code、Cursor 等 Agent 框架。
一款名为 Crawl4AI 的开源网络爬虫工具爆火,它提供免费且对 LLM 友好的抓取功能,包括 JavaScript 渲染、异步爬取和清晰的结构化输出,与 Firecrawl 等付费服务形成对比。
一条推特帖子推广了crawl4ai,这是一个专为LLM设计的开源网络爬取工具,可将任何URL转换为LLM可用的markdown格式,与Firecrawl、ScrapingBee和Apify等付费服务相比,它提供免费无限访问。
curl.md is an open-source tool that converts web pages to optimized Markdown format for AI agents, significantly reducing token consumption and cost. It offers CLI, browser extension, and API usage, with integrations for Cursor, Claude, and other agents.
browser_use 是一款工具,通过一次 curl 调用将任何网站转换为干净的 JSON,处理 JavaScript 渲染并绕过 Cloudflare 等机器人防护。
Agent-reach 是一个免费的开源工具,允许AI代理无需API密钥即可访问Twitter、Reddit、GitHub、YouTube等平台,目前在GitHub上拥有23K星标,正在热门趋势中。