web-scraping

#web-scraping

@Jason23818126: 如果你经常用 AI 找信息，这个网站一定要收藏 Hermes 现在已经可以接入 http://Browse.sh 这是一个收录了数百个浏览器 Skill 的开源目录，一条 CLI 命令就能让 Agent 获得新的互联网能力我翻了一圈，覆…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

Browse.sh 是一个数百个浏览器 Skill 的开源目录，通过一条 CLI 命令即可让 AI Agent 获得新的互联网能力，覆盖找房、航班、电影、工作等场景。

0 人收藏 0 人点赞

#web-scraping

@bayendor：我刚才问了我的Hermes Agent，到目前为止在我们多智能体系统中使用最频繁的5个技能是什么。总之，整个Hermes系统…

X AI KOLs Timeline ↗ · 2026-05-23 缓存

一位开发者列出了其Hermes多智能体系统中使用最频繁的5个MCP技能，涵盖Cloudflare基础设施、通过Porkbun进行域名管理、预测市场交易、Twitter数据提取以及网页抓取。

0 人收藏 0 人点赞

#web-scraping

@Fluyeporlaweb: 网页抓取技术升级——Scrapling 绕过 Cloudflare 封锁，速度是 BeautifulSoup 的 774 倍，而且无需……

X AI KOLs Timeline ↗ · 2026-05-22 缓存

Scrapling 是一个网页抓取框架，能够绕过 Cloudflare 封锁，速度比 BeautifulSoup 快 774 倍，并能自动适应网站变化。它在 GitHub 上拥有 5.22 万星标，并支持作为 MCP 服务器与 AI 代理协作。

0 人收藏 0 人点赞

#web-scraping

@lhoestq: 你不知道你其实需要本地 Common Crawl

X AI KOLs Timeline ↗ · 2026-05-22 缓存

了解如何设置并在本地使用 Common Crawl 数据进行网页数据处理任务。

0 人收藏 0 人点赞

#web-scraping

激进的AI爬虫让维基运营变得有些糟糕

Lobsters Hottest ↗ · 2026-05-21 缓存

讨论了激进的AI爬虫如何通过模仿人类流量和使用住宅代理来干扰维基运营，大幅增加服务器成本并导致服务不稳定。

0 人收藏 0 人点赞

#web-scraping

做好准备：谷歌计划在2026年用代理式AI重塑搜索

Ars Technica ↗ · 2026-05-20 缓存

谷歌计划在2026年用代理式AI彻底改造搜索，使用户能通过搜索查询生成自定义UI应用，例如旅行行程。该功能由Gemini 3.5驱动，代表了从蓝色链接到AI生成内容的转变，具有个性化、可共享迷你应用的潜力。

0 人收藏 0 人点赞

#web-scraping

@browserbase: 推出 http://Browse.sh，这是最大的开源技能目录，可可靠地执行互联网上的任何任务。W…

X AI KOLs Following ↗ · 2026-05-18 缓存

Browserbase 推出了 browse.sh，这是一个开源 CLI 工具，提供预构建的技能目录，帮助 AI 代理自动化各种网站，降低 token 成本。

0 人收藏 0 人点赞

#web-scraping

我们正在超越爬虫和基础网页自动化

Reddit r/singularity ↗ · 2026-05-17

对网页自动化快速演变的反思，强调像 Skyvern 这样的模型如何结合计算机视觉和 LLM 来克服传统爬虫的挑战。

0 人收藏 0 人点赞

#web-scraping

@nikunj: 老兄，/goal 就是 AGI，如果有合适的工具的话…… 你说什么？你遍历了整个包含两千多个条目的数据库……

X AI KOLs Following ↗ · 2026-05-15 缓存

一位用户描述了一个AI代理，它自主修复了数据库中的产品图片、前端错误和描述，使用了浏览器自动化和网络搜索，并在用户与创始人会面的两小时内运行，突显了令人印象深刻的类似AGI的能力。

0 人收藏 0 人点赞

#web-scraping

@DivyanshT91162: Claude Code 刚刚越界了。它现在可以对几乎任何网站的用户界面进行逆向工程。推出 AIDesi…

X AI KOLs Timeline ↗ · 2026-05-15

AIDesigner MCP v2 使 AI 编码代理能够对任何网站的用户界面进行逆向工程，提取品牌、资源与组件，自动重建完整的设计系统，从而实现对精英 SaaS 界面的快速克隆与重新设计。

0 人收藏 0 人点赞

#web-scraping

AI Agent本质上就是静默爬虫

Reddit r/AI_Agents ↗ · 2026-05-14

文章强调了AI Agent悄无声息地爬取网站的普遍现象，并介绍了Vouched的检测系统。该系统由KYA-OS身份层驱动，通过可验证凭据和简单的提示词集成，来识别代理、机器人和人类流量。

0 人收藏 0 人点赞

#web-scraping

CatchAll by NewsCatcher

Product Hunt ↗ · 2026-05-13

CatchAll by NewsCatcher 是一款基于用户自定义条件从网络构建定制化数据集的产品。

0 人收藏 0 人点赞

#web-scraping

@itsolelehmann：为你的智能体赋予超能力的顶级Hermes集成：1. Firecrawl 基本上是为智能体构建的网页搜索。它……

X AI KOLs Following ↗ · 2026-05-12

精选的Hermes AI智能体顶级集成列表，包括Firecrawl、Browserbase、Google Workspace、Reddit、YouTube、Discord、GitHub、Stripe、Bland/Twilio、Apify、Readwise、Granola/Fathom和Obsidian，为智能体赋予网页搜索、交互、效率和研究方面的超能力。

0 人收藏 0 人点赞

#web-scraping

@hasantoxr: 发现这个后，我再也不愿每月花 500 美元购买反检测浏览器了。它叫 CloakBrowser。一款隐秘的 Chromium……

X AI KOLs Timeline ↗ · 2026-05-12

本文介绍了 CloakBrowser，这是一款基于 Chromium 的开源隐秘浏览器，旨在绕过 reCAPTCHA 和 Cloudflare Turnstile 等机器人检测系统。它声称通过直接修补 C++ 源代码而非注入 JavaScript 来提供卓越的隐秘能力，定位自己为昂贵商业反检测浏览器的免费替代方案。

0 人收藏 0 人点赞

#web-scraping