@vanstriendaniel: 您现在可以对21.9亿个网页运行SQL查询，无需下载！@CommonCrawl 2026年4月的爬取数据及URL索引已上线@huggi...

X AI KOLs Following 2026/05/22 14:24 工具

common-crawl sql huggingface duckdb web-crawl data-analysis

摘要

一个Hugging Face Space允许您对Common Crawl的21.9亿个网页运行SQL查询而无需下载，它使用DuckDB直接从Hugging Face存储桶读取数据。

您现在可以对21.9亿个网页运行SQL查询。无需下载！@CommonCrawl 2026年4月的爬取数据及URL索引已位于@huggingface存储桶中。@duckdb 直接通过hf://读取。我在约35秒内统计了全部21.9亿条。或者将您自己的代理指向这个地址：https://huggingface.co/spaces/davanstrien/common-crawl-april-2026…

查看原文

查看缓存全文

缓存时间: 2026/05/23 10:03

您现在可以在 21.9 亿个网页上运行 SQL 查询。无需下载！@CommonCrawl 2026 年 4 月爬取数据 + URL 索引已托管在 @huggingface 存储桶上。@duckdb 通过 hf:// 直接读取。我统计了全部 21.9 亿条数据，仅用约 35 秒。或者让您自己的 Agent 直接访问 https://huggingface.co/spaces/davanstrien/common-crawl-april-2026…

2026 年 4 月网络数据一览 —— 来自 davanstrien 的 Hugging Face Space

来源：https://huggingface.co/spaces/davanstrien/common-crawl-april-2026

Spaces (https://huggingface.co/spaces) Hugging Face 的徽标 (https://huggingface.co/) — https://huggingface.co/davanstrien davanstrien (https://huggingface.co/davanstrien) / common-crawl-april-2026 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026) 运行中

应用 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026) 文件Files (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026/tree/main) 社区 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026/discussions)

刷新中

@vanstriendaniel: 您现在可以对21.9亿个网页运行SQL查询，无需下载！@CommonCrawl 2026年4月的爬取数据及URL索引已上线@huggi...

2026 年 4 月网络数据一览 —— 来自 davanstrien 的 Hugging Face Space

Spaces (https://huggingface.co/spaces) Hugging Face 的徽标 (https://huggingface.co/) — https://huggingface.co/davanstrien davanstrien (https://huggingface.co/davanstrien) / common-crawl-april-2026 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026) 运行中

相似文章

@ClementDelangue: 很高兴看到@CommonCrawl 使用并推荐 @huggingface Buckets 用于大规模不断演变的训练数据集！…

@lhoestq: 你不知道你其实需要本地 Common Crawl

@vanstriendaniel: OCR模型又来了！百度公司的Unlimited-OCR是其中比较有趣的一个。你可以无需太多…

@israfill：你的AI智能体可以免费读取任何网站 - Firecrawl限制你1000页后收费，而crawl4ai在GitHub上有6.8万颗星…

@heynavtoor: 一个获得六万星级的网络爬虫在几天内建成。由一个开发者完成。因为一个“16美元的开源”工具让他愤怒。六万多……

提交意见反馈