web-scraping

#web-scraping

@NFTCPS: X推特上那些搬运博主的内容源终于知道从哪来的！就这个工具MediaCrawler，一个工具通吃小红书、抖音、快手、B站、微博、贴吧、知乎，公开的内容、评论、点赞、转发都能扒下来。最骚的是它不用搞JS逆向那套，靠浏览器登录态直接拿签名，…

X AI KOLs Timeline ↗ · 昨天缓存

MediaCrawler是一个多平台自媒体数据采集工具，支持小红书、抖音、快手、B站、微博、贴吧、知乎的公开内容抓取，利用浏览器登录态绕过JS逆向，降低技术门槛。

0 人收藏 0 人点赞

#web-scraping

Show HN：Selector Forge —— 浏览器扩展，利用AI生成弹性的选择器

Hacker News Top ↗ · 昨天缓存

Selector Forge 是一款浏览器扩展，利用AI生成并验证可靠的CSS/XPath选择器，用于网页自动化，帮助开发者构建稳健的选择器，适用于测试、数据抓取和页面自动化。

0 人收藏 0 人点赞

#web-scraping

@LTChives: 网络爬虫已死。视频里这个 PixelRAG，完全跳过 HTML 解析。它把网页直接截图，然后让视觉模型从像素里读答案。以前 AI 读网页，是先拆代码、提文字、切段落。现在它直接看页面。 100% 开源，还带 Claude Code…

X AI KOLs Timeline ↗ · 2天前缓存

PixelRAG 是一种新型开源工具，它绕过传统 HTML 解析，直接通过对网页截图并使用视觉模型从像素中提取答案，并支持 Claude Code 插件，让 Claude 具备视觉能力。

0 人收藏 0 人点赞

#web-scraping

@ChrisSlacker: 10个GitHub仓库帮你爬取整个互联网全部收藏。每个都能从任何网站提取干净数据，这种访问权限通常需要销售电话和合同才能获得。 1. https://github.com/firecrawl/firecrawl… 指向任何网站，它就能爬…

X AI KOLs Timeline ↗ · 2天前缓存

这篇文章介绍了10个用于网络爬虫的GitHub开源仓库，包括Firecrawl、Crawl4AI等，能够从网站提取干净数据，支持AI就绪的格式。

0 人收藏 0 人点赞

#web-scraping

@FakeMaidenMaker: Puppeteer 能让程序自己打开浏览器，像人一样点鼠标、输文字、抓页面内容，干活根本不用你盯着。 GitHub 上有 95k Star，是浏览器自动化领域绝对的标杆项目。 GitHub：https://github.com/puppe…

X AI KOLs Timeline ↗ · 2天前缓存

Puppeteer 是一个流行的浏览器自动化 JavaScript 库，支持控制 Chrome 和 Firefox，可用于网页抓取、自动化测试等场景，最近还集成了 MCP 协议以支持 AI 代理直接操控浏览器。

0 人收藏 0 人点赞

#web-scraping

@WY_mask: MediaCrawler：开源小红书/抖音/微博/B站/快手爬虫工具支持爬取视频、图片、评论、点赞、转发等信息 https://github.com/NanmiCoder/MediaCrawler…

X AI KOLs Timeline ↗ · 2天前缓存

MediaCrawler 是一个开源的多平台自媒体数据采集工具，支持小红书、抖音、微博、B站、快手等平台的公开信息抓取，无需JS逆向，基于Playwright浏览器自动化。

0 人收藏 0 人点赞

#web-scraping

@RoundtableSpace: 网页抓取已死。PixelRAG 完全跳过 HTML 解析。它截取页面截图，视觉模型直接读取答案…

X AI KOLs Timeline ↗ · 2天前缓存

PixelRAG 是一款开源工具，通过使用截图和视觉模型从网页中提取数据，取代了传统的网页抓取。它包含一个 Claude Code 插件。

0 人收藏 0 人点赞

#web-scraping

@akshay_pachaar: 网页抓取将彻底改变。(100%开源的大规模视觉搜索) PixelRAG是一种检索系统，可跳过…

X AI KOLs Following ↗ · 3天前缓存

PixelRAG是一种开源检索系统，它通过截取网页截图并使用视觉语言模型直接从像素中读取答案，从而绕过HTML解析，声称相比基于文本的RAG有显著的准确率提升。

0 人收藏 0 人点赞

#web-scraping

@aiwithkhush: 10 个 GitHub 仓库，助你抓取整个互联网请务必逐个收藏。每个仓库都能从任意网站提取干净数据，这些数据正是企业需要通过销售电话和合同才能出售的访问权限。

X AI KOLs Timeline ↗ · 3天前缓存

一个精心整理的帖子，列出了 10 个用于网页抓取的 GitHub 仓库，包括 Firecrawl、Crawl4AI、Browser Use 等，涵盖从简单抓取到隐身工具以及面向 LLM 的数据提取。

1 人收藏 1 人点赞

#web-scraping

agent-data: 为OpenClaw提供的结构化网页数据，价格比浏览器自动化低70%

Reddit r/openclaw ↗ · 4天前

agent-data是一个Python API工具，为OpenClaw等AI代理提供结构化网页数据，声称比浏览器自动化便宜70%且更可靠。

0 人收藏 0 人点赞

#web-scraping

无需付费搜索/抓取API，为本地智能体提供网页访问权限：SearXNG + Scrapling

Reddit r/LocalLLaMA ↗ · 4天前

描述了一个自托管解决方案，使用 SearXNG 进行搜索、Scrapling 和 Trafilatura 进行页面提取，为本地 AI 代理提供网络访问，从而避免使用付费 API。

0 人收藏 0 人点赞

#web-scraping

@hank_aibtc: 自媒体人必备工具：Agent Reach 让AI Agent变全网通 34k+ stars，开源免费，专治 Claude、Cursor 等 Agent 上网抓瞎。解决的痛点？ AI Agent 写代码、管项目很强，但一上网就卡：付费 …

X AI KOLs Timeline ↗ · 4天前缓存

Agent Reach 是一个开源免费的工具，让 AI Agent 能够访问多种网络平台（如 YouTube、B站、GitHub 等），解决付费 API、IP 封禁等问题，支持多后端路由和自检切换，适合自媒体人和 Agent 用户。

0 人收藏 0 人点赞

#web-scraping

@AmberTreelet: 天策哥分享了yt-dlp爬取抖音油管B站推特我来补充一些全网爬取工具 FxTwitter：柴郡老师推荐的爬X神器 @0xCheshire get笔记（得到大脑）：公众号小红书抖音B站X 播客谷歌插件obsidian web clipp…

X AI KOLs Timeline ↗ · 4天前缓存

介绍了多种网络爬取工具，包括yt-dlp、FxTwitter、get笔记等，用于从不同平台抓取内容。

0 人收藏 0 人点赞

#web-scraping

@gaoqian2580: GitHub现象级项目 Firecrawl！已获13.4万 Stars！ AI开发者必备神器：把任何网站直接变成AI能用的干净数据！自动抓取+清洗+结构化输出 Markdown/JSON，支持JS页面。更牛的是支持AI Agent自主…

X AI KOLs Timeline ↗ · 5天前缓存

Firecrawl 是一个 GitHub 上的开源项目，已获 13.4 万 Stars，能够自动抓取、清洗网站并将其转换为 AI 可用的 Markdown 或 JSON 格式数据，支持 JavaScript 页面和 AI Agent 自主交互，是构建 RAG、知识库和自动化 Agent 的基础设施。

0 人收藏 0 人点赞

#web-scraping

@mylifcc: Firecrawl Keyless 上线！今天起无需 API Key 就能免费试用现在可以直接： • 实时搜索 + 抓取任意网页（支持 JS 渲染） • 网页交互（点击、填表单、翻页导航） • PDF 一键解析成干净 Markdown …

X AI KOLs Timeline ↗ · 6天前缓存

Firecrawl 推出 Keyless 模式，无需 API Key 即可免费试用，支持实时网页抓取、交互和 PDF 解析，每月赠送 1000 Credits，适用于 Claude Code、Cursor 等 Agent 框架。

0 人收藏 0 人点赞

#web-scraping

@heyrimsha: Firecrawl 每月收费 $333 用于大规模爬取网站。我发现了一个 GitHub 仓库，可以做同样的事情，而且免费。它是……

X AI KOLs Timeline ↗ · 6天前缓存

一款名为 Crawl4AI 的开源网络爬虫工具爆火，它提供免费且对 LLM 友好的抓取功能，包括 JavaScript 渲染、异步爬取和清晰的结构化输出，与 Firecrawl 等付费服务形成对比。

0 人收藏 0 人点赞

#web-scraping

@israfill：你的AI智能体可以免费读取任何网站 - Firecrawl限制你1000页后收费，而crawl4ai在GitHub上有6.8万颗星…

X AI KOLs Timeline ↗ · 2026-06-15 缓存

一条推特帖子推广了crawl4ai，这是一个专为LLM设计的开源网络爬取工具，可将任何URL转换为LLM可用的markdown格式，与Firecrawl、ScrapingBee和Apify等付费服务相比，它提供免费无限访问。

0 人收藏 0 人点赞

#web-scraping

@GYLQ520: 搞 AI Agent 的注意了！token 烧钱烧到心疼？有个开源工具叫 curl.md，专门把网页转成 Markdown 格式喂给 AI，token 消耗直接砍一大截。CLI、浏览器插件、API 三种用法随你选，Cursor、Clau…

X AI KOLs Timeline ↗ · 2026-06-14 缓存

curl.md is an open-source tool that converts web pages to optimized Markdown format for AI agents, significantly reducing token consumption and cost. It offers CLI, browser extension, and API usage, with integrations for Cursor, Claude, and other agents.

0 人收藏 0 人点赞

#web-scraping

@browser_use: 一次 curl 调用即可将任何网站转为干净的 JSON。支持 Markdown 或 JSON 格式，开箱即用 — 适用于任何 URL。> 渲染 JS 并击败 Cloudflare…

X AI KOLs Following ↗ · 2026-06-13 缓存

browser_use 是一款工具，通过一次 curl 调用将任何网站转换为干净的 JSON，处理 JavaScript 渲染并绕过 Cloudflare 等机器人防护。

0 人收藏 0 人点赞

#web-scraping

@israfill: 你的代理可以免费搜索Twitter、Reddit和GitHub——零API密钥，零费用，agent-reach 在GitHub上正热门…

X AI KOLs Timeline ↗ · 2026-06-13 缓存

Agent-reach 是一个免费的开源工具，允许AI代理无需API密钥即可访问Twitter、Reddit、GitHub、YouTube等平台，目前在GitHub上拥有23K星标，正在热门趋势中。

0 人收藏 0 人点赞

web-scraping

提交意见反馈