@vanstriendaniel: 您现在可以对21.9亿个网页运行SQL查询,无需下载!@CommonCrawl 2026年4月的爬取数据及URL索引已上线@huggi...
摘要
一个Hugging Face Space允许您对Common Crawl的21.9亿个网页运行SQL查询而无需下载,它使用DuckDB直接从Hugging Face存储桶读取数据。
查看缓存全文
缓存时间: 2026/05/23 10:03
您现在可以在 21.9 亿个网页上运行 SQL 查询。无需下载!@CommonCrawl 2026 年 4 月爬取数据 + URL 索引已托管在 @huggingface 存储桶上。@duckdb 通过 hf:// 直接读取。我统计了全部 21.9 亿条数据,仅用约 35 秒。或者让您自己的 Agent 直接访问 https://huggingface.co/spaces/davanstrien/common-crawl-april-2026…
2026 年 4 月网络数据一览 —— 来自 davanstrien 的 Hugging Face Space
来源:https://huggingface.co/spaces/davanstrien/common-crawl-april-2026
Spaces (https://huggingface.co/spaces) Hugging Face 的徽标 (https://huggingface.co/) — https://huggingface.co/davanstrien davanstrien (https://huggingface.co/davanstrien) / common-crawl-april-2026 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026) 运行中
应用 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026) 文件Files (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026/tree/main) 社区 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026/discussions)
刷新中
相似文章
@ClementDelangue: 很高兴看到@CommonCrawl 使用并推荐 @huggingface Buckets 用于大规模不断演变的训练数据集!…
Hugging Face 宣布推出 Storage Buckets,这是一种适用于大规模不断演变的训练数据集的存储解决方案,内置 CDN 和去重功能,并获得 CommonCrawl 的推荐。
@lhoestq: 你不知道你其实需要本地 Common Crawl
了解如何设置并在本地使用 Common Crawl 数据进行网页数据处理任务。
Show HN: GETadb.com – 每个GET请求创建一个数据库
GETadb.com 提供一个即时后端,包含关系型数据库、同步引擎和认证,通过简单的GET请求即可访问,无需注册,允许像Claude或Codex这样的AI智能体无缝构建全栈应用。
Hugging Face 数据集突破 100 万!
庆祝 Hugging Face 社区达成 100 万个数据集的里程碑,彰显社区通过开放数据协作推动 AI 发展的共同努力。
@axichuhai: 兄弟们,这个开源项目直接开了上帝视角,把爬虫效率直接拉高数十倍,已经登顶 GitHub 热榜,5w+ star 数。 以前抓数据要写代码、维护选择器、对付各种反爬机制,现在全省了。 扔个 URL 进去,零代码、原生绕过屏蔽、不用维护选择器…
这个开源项目能零代码抓取网页数据,绕过反爬机制,效率提升数十倍,已获得5万+star。