@vanstriendaniel: 您现在可以对21.9亿个网页运行SQL查询,无需下载!@CommonCrawl 2026年4月的爬取数据及URL索引已上线@huggi...

X AI KOLs Following 工具

摘要

一个Hugging Face Space允许您对Common Crawl的21.9亿个网页运行SQL查询而无需下载,它使用DuckDB直接从Hugging Face存储桶读取数据。

您现在可以对21.9亿个网页运行SQL查询。无需下载!@CommonCrawl 2026年4月的爬取数据及URL索引已位于@huggingface存储桶中。@duckdb 直接通过hf://读取。我在约35秒内统计了全部21.9亿条。或者将您自己的代理指向这个地址:https://huggingface.co/spaces/davanstrien/common-crawl-april-2026…
查看原文
查看缓存全文

缓存时间: 2026/05/23 10:03

您现在可以在 21.9 亿个网页上运行 SQL 查询。无需下载!@CommonCrawl 2026 年 4 月爬取数据 + URL 索引已托管在 @huggingface 存储桶上。@duckdb 通过 hf:// 直接读取。我统计了全部 21.9 亿条数据,仅用约 35 秒。或者让您自己的 Agent 直接访问 https://huggingface.co/spaces/davanstrien/common-crawl-april-2026…


2026 年 4 月网络数据一览 —— 来自 davanstrien 的 Hugging Face Space

来源:https://huggingface.co/spaces/davanstrien/common-crawl-april-2026

Spaces (https://huggingface.co/spaces) Hugging Face 的徽标 (https://huggingface.co/) — https://huggingface.co/davanstrien davanstrien (https://huggingface.co/davanstrien) / common-crawl-april-2026 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026) 运行中

应用 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026) 文件Files (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026/tree/main) 社区 (https://huggingface.co/spaces/davanstrien/common-crawl-april-2026/discussions)

刷新中

相似文章

Hugging Face 数据集突破 100 万!

Reddit r/LocalLLaMA

庆祝 Hugging Face 社区达成 100 万个数据集的里程碑,彰显社区通过开放数据协作推动 AI 发展的共同努力。