web-scraping

标签

Cards List
#web-scraping

AI代理在2026年如何收集数据

Reddit r/AI_Agents · 7小时前

本文阐述了2026年AI代理如何从网站和API收集数据,并讨论了如速率限制、CAPTCHA和IP封禁等关键挑战。

0 人收藏 0 人点赞
#web-scraping

我将我的AI约会助手升级到Fable

Reddit r/AI_Agents · 10小时前

一位开发者将其AI约会助手升级到Fable,详细介绍了由代理式AI智能体组成的复杂架构,这些智能体负责抓取社交媒体资料、进行OSINT信息增强、对匹配对象进行评分,并使用遗传算法进行优化。

0 人收藏 0 人点赞
#web-scraping

@0xMulight: Claude Code终极爬虫手册:5大开源Skill让AI真正会上网干活 想让Claude别再只是聊天工具,而是直接上手抓数据、操作网页、批量处理内容?下面这套组合就是最实用的方案。 我把方案整理成这份手册,可以直接复制给Claude …

X AI KOLs Timeline · 14小时前 缓存

本文介绍了5个开源工具(Agent-reach、Scrapling、Browser-use、Claude in Chrome、Web-access),让Claude Code等AI Agent具备网页数据抓取、浏览器操作等能力,从轻量到重量级覆盖不同场景,并提供配置心法。

0 人收藏 0 人点赞
#web-scraping

@firecrawl:我们押注下一个10亿+用户将是智能体,因此我们推出智能体注册。让你的智能体添加Firecrawl,在…

X AI KOLs Following · 昨天 缓存

Firecrawl推出智能体注册,让AI智能体能够即时获取API密钥并抓取网页数据,集成了Codex、Claude Code和Grok Build,由WorkOS提供支持。

0 人收藏 0 人点赞
#web-scraping

@GoJun315: 一位 16 岁开发者,开源了一个无头浏览器引擎,专为爬虫和 AI Agent 自动化设计。 项目名叫 Obscura,使用 Rust 构建,已狂揽 14600+ GitHub Star。 与 headless Chrome 对比优势明显:…

X AI KOLs Timeline · 昨天 缓存

一位16岁开发者开源了基于Rust的无头浏览器引擎Obscura,专为爬虫和AI Agent自动化设计,内存占用仅30MB,已获得超14600 GitHub星标。

0 人收藏 0 人点赞
#web-scraping

@Xudong07452910: 开源搜索工具推荐:《Agent Reach》—— 给你的 AI Agent 装上 15 个平台的眼睛,完全免费 Agent Reach 解决了一个很实际的问题:你的 AI Agent 想在 Twitter/Reddit/YouTube/G…

X AI KOLs Timeline · 3天前 缓存

Agent Reach 是一个开源命令行工具,为 AI Agent 提供统一的免费接口,覆盖 Twitter、Reddit、YouTube 等15+平台的深度搜索能力,无需支付 API 费用,已获21.7k+ stars。

0 人收藏 0 人点赞
#web-scraping

客厅里的智能电视成为AI爬取经济的一个节点

Lobsters Hottest · 4天前 缓存

这项研究揭示了Bright Data的SDK如何将智能电视和手机转变为用于AI网络爬取的住宅代理节点,强调了隐私风险以及住宅代理网络的合法供应端。

0 人收藏 0 人点赞
#web-scraping

@xiaojianjian567: 21,637 颗星,Python 写的。一个脚手架,让 AI Agent 能读 Twitter、Reddit、YouTube、B 站、小红书,零 API 费用。(我hermes已安装) 它解决的就是 AI Agent 上不了网这个老大难。…

X AI KOLs Timeline · 4天前 缓存

Agent Reach 是一个开源的 Python 脚手架,让 AI Agent 能够零 API 费用读取 Twitter、Reddit、YouTube、B 站、小红书等多个平台,解决了 Agent 上网困难的问题。

0 人收藏 0 人点赞
#web-scraping

为什么代理对你的AI代理至关重要

Reddit r/AI_Agents · 5天前

本文解释了为什么代理对于AI代理在大规模数据采集时避免速率限制、CAPTCHA和地理限制至关重要,并涵盖了常见的用例和代理类型。

0 人收藏 0 人点赞
#web-scraping

有哪些鲜为人知的最强地下AI工具?

Reddit r/artificial · 5天前

六个强大但知名度较低的AI开发者工具列表:Instructor(用于结构化JSON输出)、Octopoda(用于智能体记忆)、E2B(安全沙箱)、Firecrawl(网站转Markdown)、Composio(应用集成)和LiteLLM(多模型API)。

0 人收藏 0 人点赞
#web-scraping

@GitHub_Daily: 让 AI Agent 自动化操作浏览器或抓数据,经常被各种反爬机制拦截,遇到验证码、人机验证直接卡死。 最近 BrowserAct 团队开源了一个 Skill,专为 AI Agent 设计的浏览器自动化命令行工具。 提供三层反封锁机制,从…

X AI KOLs Timeline · 5天前 缓存

BrowserAct 团队开源了一个专为 AI Agent 设计的浏览器自动化命令行工具,提供三层反封锁机制(指纹伪装、验证码破解、人类接管),支持多浏览器并行、账户隔离,并优化了输出格式以节省Token。

0 人收藏 0 人点赞
#web-scraping

TinyFish Bigset 将文本提示转换为实时数据集(3分钟阅读)

TLDR AI · 2026-06-03 缓存

TinyFish Bigset 是一个开源的多智能体系统,可将自然语言提示转换为来自实时网络的结构化数据集,具备模式推断、自主研究代理和定时刷新功能。它通过 Docker 自托管运行,并基于 TinyFish 的搜索基础设施构建。

0 人收藏 0 人点赞
#web-scraping

AI让大规模网页抓取变得触手可及。这是一个问题吗?

Reddit r/ArtificialInteligence · 2026-06-02

本文探讨了AI编程助手如何使普通大众能够进行大规模网页抓取,由此引发了关于忽略robots.txt和速率限制的道德问题,并对AI提供者的责任提出质疑。

0 人收藏 0 人点赞
#web-scraping

AI 在数据收集中如何遵循道德准则?

Reddit r/artificial · 2026-06-02

关于 AI 代理在生成爬虫时忽视 robots.txt 等网站规则的伦理挑战,以及 AI 提供商在不妨碍产品可用性的前提下实施护栏的责任的评论。

0 人收藏 0 人点赞
#web-scraping

哪种网络搜索API能为本地RAG解析提供最干净的Markdown输出?

Reddit r/LocalLLaMA · 2026-06-02

针对为本地RAG管线提供干净Markdown输出的需求,本文比较了多种网络搜索API与工具(包括Brave Search、Parallel AI、You.com、Exa、Tavily、Firecrawl、Jina Reader以及SearXNG),评估它们在信噪比和开发者开销方面的表现。

0 人收藏 0 人点赞
#web-scraping

@axichuhai: 兄弟们,这个开源项目直接开了上帝视角,把爬虫效率直接拉高数十倍,已经登顶 GitHub 热榜,5w+ star 数。 以前抓数据要写代码、维护选择器、对付各种反爬机制,现在全省了。 扔个 URL 进去,零代码、原生绕过屏蔽、不用维护选择器…

X AI KOLs Timeline · 2026-06-02 缓存

这个开源项目能零代码抓取网页数据,绕过反爬机制,效率提升数十倍,已获得5万+star。

0 人收藏 0 人点赞
#web-scraping

我基准测试了AI代理读取原始HTML有多糟糕。差距比我预想的要大。

Reddit r/AI_Agents · 2026-05-31

一项实验比较了AI代理在读取原始HTML与结构化格式时的准确性和代币成本;原始HTML的代币成本是两倍,准确性更低。

0 人收藏 0 人点赞
#web-scraping

设计违法:揭露生成式AI的人权代价

Lobsters Hottest · 2026-05-31 缓存

国际特赦组织的简报指出,基于非法网络爬虫构建的生成式AI系统违反了国际人权法,并呼吁禁止这些系统。

0 人收藏 0 人点赞
#web-scraping

@XAMTO_AI: 24OpenClaw 现在能爬几乎任何网站,关键是——零反爬检测,原生绕过 Cloudflare,速度比 BeautifulSoup 快 774 倍。 ① 不用维护选择器 ② 不用想各种骚操作绕 ③ 直接拿数据就行 这种降维打击级别的工具…

X AI KOLs Timeline · 2026-05-28 缓存

24OpenClaw(Scrapling)是一个开源网页爬取工具,号称零反爬检测、原生绕过Cloudflare,速度比BeautifulSoup快774倍,无需维护选择器。

0 人收藏 0 人点赞
#web-scraping

赋予你的代理查找任何公司网站/联系信息的能力

Reddit r/AI_Agents · 2026-05-26

一款使AI代理能够自动查找任何公司网站和联系信息的工具,无需注册。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈